01-16 05:56
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science] Data Science Process 본문

Data Science/Posts

[Data Science] Data Science Process

cinema4dr12 2015. 1. 18. 17:02

Written by CINEMA4D

데이터 과학에 있어 데이터를 처리하는 순서는 다음 그림과 같다:




[실세계]

각종 포털사이트, 온/오프라인 쇼핑몰, Facebook, Google+, Twitter와 같은 SNS 등 데이터를 수집할 수 있는 모든 데이터 원천을 의미한다.



[미가공 데이터]

실세계로부터 얻어진 데이터는 가공되지 않은 형태의 "있는 그대로의 데이터(Raw Data)"로 존재한다. 이것은 로그 파일, 이메일, 동영상, 음성 등 다양한 비정형 데이터로 존재할 가능성이 높으며 정형화 된 형태일지라도 데이터가 유실될 경우도 많다.



[데이터 처리]

미가공 데이터는 R, Python, Ruby 등과 같은 데이터 처리 도구를 통하여 처리되고 SQL, NoSQL 등과 같은 데이터 쿼리 언어를 통해 데이터를 저장한다.



[데이터 클린닝]

컬럼 형태 등의 데이터로 깔끔하게 정리하는 과정이다.



[EDA]

EDA는 Exploratory Data Analysis의 약자이며, EDA를 실행하는 도구는 플롯, 그래프, 통계학적 개요 등이 있다.



[모델/알고리즘]

데이터 분석을 위해 k-NN, 선형회귀, Naive Bayes 등의 알고리즘을 기반으로 모델을 설계한다. 풀고자 하는 문제에 따라 모델은 달라질 것이다.



[커뮤니케이션]

데이터 분석에 대한 결과를 공유하는 방법은 데이터 해석, 시각화, 리포팅하는 것들이다.



[데이터 프로덕트]

데이터를 분석하는 주요 목표들에는 스팸 필터, 랭킹 알고리즘, 추천 서비스 등이 있다.

Comments