일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- Artificial Intelligence
- MongoDB
- 통계
- 김양재 목사님
- Statistics
- Deep learning
- 데이터 과학
- 김양재
- Machine Learning
- 빅데이타
- data science
- WebGL
- R
- c++
- node.js
- 딥러닝
- 몽고디비
- 확률
- openCV
- Big Data
- 우리들교회
- probability
- 주일설교
- nodeJS
- 빅 데이터
- 김양재 목사
- No SQL
- 빅데이터
- 빅 데이타
- 인공지능
Archives
- Today
- Total
Scientific Computing & Data Science
[Data Science] Data Science Process 본문
Written by CINEMA4D
데이터 과학에 있어 데이터를 처리하는 순서는 다음 그림과 같다:
[실세계]
각종 포털사이트, 온/오프라인 쇼핑몰, Facebook, Google+, Twitter와 같은 SNS 등 데이터를 수집할 수 있는 모든 데이터 원천을 의미한다.
[미가공 데이터]
실세계로부터 얻어진 데이터는 가공되지 않은 형태의 "있는 그대로의 데이터(Raw Data)"로 존재한다. 이것은 로그 파일, 이메일, 동영상, 음성 등 다양한 비정형 데이터로 존재할 가능성이 높으며 정형화 된 형태일지라도 데이터가 유실될 경우도 많다.
[데이터 처리]
미가공 데이터는 R, Python, Ruby 등과 같은 데이터 처리 도구를 통하여 처리되고 SQL, NoSQL 등과 같은 데이터 쿼리 언어를 통해 데이터를 저장한다.
[데이터 클린닝]
컬럼 형태 등의 데이터로 깔끔하게 정리하는 과정이다.
[EDA]
EDA는 Exploratory Data Analysis의 약자이며, EDA를 실행하는 도구는 플롯, 그래프, 통계학적 개요 등이 있다.
[모델/알고리즘]
데이터 분석을 위해 k-NN, 선형회귀, Naive Bayes 등의 알고리즘을 기반으로 모델을 설계한다. 풀고자 하는 문제에 따라 모델은 달라질 것이다.
[커뮤니케이션]
데이터 분석에 대한 결과를 공유하는 방법은 데이터 해석, 시각화, 리포팅하는 것들이다.
[데이터 프로덕트]
데이터를 분석하는 주요 목표들에는 스팸 필터, 랭킹 알고리즘, 추천 서비스 등이 있다.
'Data Science > Posts' 카테고리의 다른 글
[Data Science / Posts] R에서 Directory 내 파일명 일괄 변경 (3) | 2016.11.12 |
---|---|
[Data Science] 데이터 과학자의 역할 (0) | 2015.01.23 |
[Data Science / Posts] Big Data에 대한 생각 (0) | 2015.01.10 |
[Data Science] 빅데이터에 있어 기업들은 왜 유동데이터를 원하는가 (0) | 2014.03.22 |
[Data Science] 빅데이터 워크플로우 (0) | 2014.03.19 |
Comments