일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 빅데이타
- c++
- 김양재
- Statistics
- data science
- 빅 데이터
- 몽고디비
- Artificial Intelligence
- 데이터 과학
- WebGL
- Deep learning
- No SQL
- 확률
- nodeJS
- Big Data
- 빅 데이타
- 통계
- 딥러닝
- 빅데이터
- MongoDB
- 우리들교회
- 김양재 목사
- R
- 김양재 목사님
- 인공지능
- Machine Learning
- 주일설교
- openCV
- node.js
- probability
- Today
- Total
Scientific Computing & Data Science
[Data Science / Posts] 데이터 과학자들이 사용하는 40가지 기술 본문
이 글에 소개되는 기술들은 대부분의 데이터 과학자 및 관련 업계 종사자들이 매일의 업무에 사용하는 기술로써 벤더가 제공하거나 직접 설계해서 쓰는 툴들이다. 아래 40개 중 어느 링크를 클릭하면 논의가 되고 있는 관련 글을 자세하게 읽을 수 있다. 이들 대부분의 글들은 구글 검색으로는 찾기 어렵기 때문에 데이터 과학, 머신러닝, 통계 과학에 대한 숨은 문헌에 접근하는 것이 된다. 이들 중 대다수는 논의가 되고 있는 기술에 대한 근본적인 이해를 돕고자 하는 것이며, 심도있는 참고문헌 및 소스코드를 제공한다.
별표(*)가 되어있는 기술들은 소위 딥 데이터 과학(Deep Data Science)에 속하며, 이는 머신러닝, 컴퓨터 과학, 오퍼레이션 연구, 수학, 통계학 등의 분야와 조금이라도 겹치는 데이터 과학의 한 분야이다. 클러스터링(Clustering), 밀도 평가(Density Estimation), 가설 평가 등과 같은 전통적인 머신러닝과 통계 기술도 자동화 처리를 위해 설계된 무모델(Model-free), 데이터에 따르는(Data-driven), 강건화 기술 버전이므로 이들 또한 딥 데이터 과학에 속한다고 할 수 있다. 그러나, 이 기술들은 여기에서는 별표로 마크하지 않았는데, 이 기술들의 표준 버전이 딥 데이터 과학과 동등한 수준 이상으로 잘 알려져(불행히도 더 많이 사용되고) 있기 때문이다.
딥 데이터 과학에 대해 자세하게 알고 싶으면 여기를 클릭한다. 딥 러닝과는 다르게 딥 데이터 과학은 데이터 과학 및 인공지능과의 교차점에 있지 않다. 그러나, 딥 데이터 과학과 딥 러닝 모두 자동화를 다룬다는 점에서 이들 사이의 유사성이 완전히 의미가 없는 것은 아니다.
아래 40개의 기술들이 사용되는 맥락 및 응용분야에 대해 알고자 한다면 다음 글들을 읽어볼 것을 권장한다:
마지막으로, 기술 사용 시, 성능을 테스트해 볼 필요가 있다. 모든 사람이 알아야 할 11가지 중요한 모델 평가 기술에 대한 글을 읽어보기 바란다.
40가지 데이터 과학 기술
- Linear Regression (선형 회귀분석)
- Logistic Regression (로지스틱 회귀분석)
- Jackknife Regression (잭나이프 회귀분석)*
- Density Estimation (밀도 평가)
- Confidence Interval (신뢰 구간)
- Test of Hypotheses (가설 검정)
- Pattern Recognition (패턴 인식)
- Clustering - (비지도학습으로 알려져 있음)(클러스터링)
- Supervised Learning (지도학습)
- Time Series (시계열)
- Decision Trees (결정 트리)
- Random Numbers (난수)
- Monte-Carlo Simulation (몬테카를로 시뮬레이션)
- Bayesian Statistics (베이지언 통계학)
- Naive Bayes (나이브 베이즈)
- Principal Component Analysis - (PCA)(주요 부품 분석)
- Ensembles (앙상블)
- Neural Networks (신경망)
- Support Vector Machine - (SVM)
- Nearest Neighbors - (k-NN)
- Feature Selection - (Variable Reduction으로도 알려져 있음) (특징 선택)
- Indexation / Cataloguing (인덱세이션 / 목록화)*
- (Geo-) Spatial Modeling (공간 모델링)
- Recommendation Engine (추천 엔진)*
- Search Engine (검색 엔진)*
- Attribution Modeling (귀속 모델링)*
- Collaborative Filtering (협력 필터링)*
- Rule System (규칙 시스템)
- Linkage Analysis (관련성 분석)
- Association Rules (연관성 분석)
- Scoring Engine (스코어링 엔진)
- Segmentation (세그먼테이션)
- Predictive Modeling (예측 모델링)
- Graphs (그래프)
- Deep Learning (딥 러닝)
- Game Theory (게임 이론)
- Imputation (귀속)
- Survival Analysis (생존 분석)
- Arbitrage (차익거래)
- Lift Modeling (수명 모델링)
- Yield Optimization (산출 최적화)
- Cross-Validation (교차 타당도)
- Model Fitting (모델 적합)
- Relevancy Algorithm (적합성 알고리즘)*
- Experimental Design (실험계획법)
'Data Science > Posts' 카테고리의 다른 글
[Data Science / Posts] 15개의 딥 러닝 튜토리얼 (0) | 2017.01.28 |
---|---|
[Data Science / Posts] 사용자 관점에서의 R 병렬 컴퓨팅 (1) | 2017.01.15 |
[Data Science / Posts] 데이터 과학이란 무엇인가? 이 질문에 대한 24가지 기본적 답변 (0) | 2017.01.05 |
[Data Science / Posts] 머신러닝, 데이터과학, AI, 딥러닝, 통계학 사이의 차이점 (2) | 2017.01.05 |
[Data Science / Posts] R에서 Directory 내 파일명 일괄 변경 (3) | 2016.11.12 |