[Data Science] Data Science Process

06-30 12:02

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

Scientific Computing & Data Science

Data Science/Posts

cinema4dr12 2015. 1. 18. 17:02

Written by CINEMA4D

데이터 과학에 있어 데이터를 처리하는 순서는 다음 그림과 같다:

[실세계]

각종 포털사이트, 온/오프라인 쇼핑몰, Facebook, Google+, Twitter와 같은 SNS 등 데이터를 수집할 수 있는 모든 데이터 원천을 의미한다.

[미가공 데이터]

실세계로부터 얻어진 데이터는 가공되지 않은 형태의 "있는 그대로의 데이터(Raw Data)"로 존재한다. 이것은 로그 파일, 이메일, 동영상, 음성 등 다양한 비정형 데이터로 존재할 가능성이 높으며 정형화 된 형태일지라도 데이터가 유실될 경우도 많다.

[데이터 처리]

미가공 데이터는 R, Python, Ruby 등과 같은 데이터 처리 도구를 통하여 처리되고 SQL, NoSQL 등과 같은 데이터 쿼리 언어를 통해 데이터를 저장한다.

[데이터 클린닝]

컬럼 형태 등의 데이터로 깔끔하게 정리하는 과정이다.

[EDA]

EDA는 Exploratory Data Analysis의 약자이며, EDA를 실행하는 도구는 플롯, 그래프, 통계학적 개요 등이 있다.

[모델/알고리즘]

데이터 분석을 위해 k-NN, 선형회귀, Naive Bayes 등의 알고리즘을 기반으로 모델을 설계한다. 풀고자 하는 문제에 따라 모델은 달라질 것이다.

[커뮤니케이션]

데이터 분석에 대한 결과를 공유하는 방법은 데이터 해석, 시각화, 리포팅하는 것들이다.

[데이터 프로덕트]

데이터를 분석하는 주요 목표들에는 스팸 필터, 랭킹 알고리즘, 추천 서비스 등이 있다.

[Data Science / Posts] R에서 Directory 내 파일명 일괄 변경 (3)	2016.11.12
[Data Science] 데이터 과학자의 역할 (0)	2015.01.23
[Data Science / Posts] Big Data에 대한 생각 (0)	2015.01.10
[Data Science] 빅데이터에 있어 기업들은 왜 유동데이터를 원하는가 (0)	2014.03.22
[Data Science] 빅데이터 워크플로우 (0)	2014.03.19

공유하기 링크

'Data Science/Posts' Related Articles

Comments