11-25 07:11
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science / Posts] 데이터 과학자들이 사용하는 40가지 기술 본문

Data Science/Posts

[Data Science / Posts] 데이터 과학자들이 사용하는 40가지 기술

cinema4dr12 2017. 1. 5. 21:56

이 글에 소개되는 기술들은 대부분의 데이터 과학자 및 관련 업계 종사자들이 매일의 업무에 사용하는 기술로써 벤더가 제공하거나 직접 설계해서 쓰는 툴들이다. 아래 40개 중 어느 링크를 클릭하면 논의가 되고 있는 관련 글을 자세하게 읽을 수 있다. 이들 대부분의 글들은 구글 검색으로는 찾기 어렵기 때문에 데이터 과학, 머신러닝, 통계 과학에 대한 숨은 문헌에 접근하는 것이 된다. 이들 중 대다수는 논의가 되고 있는 기술에 대한 근본적인 이해를 돕고자 하는 것이며, 심도있는 참고문헌 및 소스코드를 제공한다.

별표(*)가 되어있는 기술들은 소위 딥 데이터 과학(Deep Data Science)에 속하며, 이는 머신러닝, 컴퓨터 과학, 오퍼레이션 연구, 수학, 통계학 등의 분야와 조금이라도 겹치는 데이터 과학의 한 분야이다. 클러스터링(Clustering), 밀도 평가(Density Estimation), 가설 평가 등과 같은 전통적인 머신러닝과 통계 기술도 자동화 처리를 위해 설계된 무모델(Model-free), 데이터에 따르는(Data-driven), 강건화 기술 버전이므로 이들 또한 딥 데이터 과학에 속한다고 할 수 있다. 그러나, 이 기술들은 여기에서는 별표로 마크하지 않았는데, 이 기술들의 표준 버전이 딥 데이터 과학과 동등한 수준 이상으로 잘 알려져(불행히도 더 많이 사용되고) 있기 때문이다.

딥 데이터 과학에 대해 자세하게 알고 싶으면 여기를 클릭한다. 딥 러닝과는 다르게 딥 데이터 과학은 데이터 과학 및 인공지능과의 교차점에 있지 않다. 그러나, 딥 데이터 과학과 딥 러닝 모두 자동화를 다룬다는 점에서 이들 사이의 유사성이 완전히 의미가 없는 것은 아니다.


아래 40개의 기술들이 사용되는 맥락 및 응용분야에 대해 알고자 한다면 다음 글들을 읽어볼 것을 권장한다:

마지막으로, 기술 사용 시, 성능을 테스트해 볼 필요가 있다. 모든 사람이 알아야 할 11가지 중요한 모델 평가 기술에 대한 글을 읽어보기 바란다.




40가지 데이터 과학 기술

  1. Linear Regression (선형 회귀분석)
  2. Logistic Regression (로지스틱 회귀분석)
  3. Jackknife Regression (잭나이프 회귀분석)*
  4. Density Estimation (밀도 평가)
  5. Confidence Interval (신뢰 구간)
  6. Test of Hypotheses (가설 검정)
  7. Pattern Recognition (패턴 인식)
  8. Clustering - (비지도학습으로 알려져 있음)(클러스터링)
  9. Supervised Learning (지도학습)
  10. Time Series (시계열)
  11. Decision Trees (결정 트리)
  12. Random Numbers (난수)
  13. Monte-Carlo Simulation (몬테카를로 시뮬레이션)
  14. Bayesian Statistics (베이지언 통계학)
  15. Naive Bayes (나이브 베이즈)
  16. Principal Component Analysis - (PCA)(주요 부품 분석)
  17. Ensembles (앙상블)
  18. Neural Networks (신경망)
  19. Support Vector Machine - (SVM)
  20. Nearest Neighbors - (k-NN)
  21. Feature Selection - (Variable Reduction으로도 알려져 있음) (특징 선택)
  22. Indexation / Cataloguing (인덱세이션 / 목록화)*
  23. (Geo-) Spatial Modeling (공간 모델링)
  24. Recommendation Engine (추천 엔진)*
  25. Search Engine (검색 엔진)*
  26. Attribution Modeling (귀속 모델링)*
  27. Collaborative Filtering (협력 필터링)*
  28. Rule System (규칙 시스템)
  29. Linkage Analysis (관련성 분석)
  30. Association Rules (연관성 분석)
  31. Scoring Engine (스코어링 엔진)
  32. Segmentation (세그먼테이션)
  33. Predictive Modeling (예측 모델링)
  34. Graphs (그래프)
  35. Deep Learning (딥 러닝)
  36. Game Theory (게임 이론)
  37. Imputation (귀속)
  38. Survival Analysis (생존 분석)
  39. Arbitrage (차익거래)
  40. Lift Modeling (수명 모델링)
  41. Yield Optimization (산출 최적화)
  42. Cross-Validation (교차 타당도)
  43. Model Fitting (모델 적합)
  44. Relevancy Algorithm (적합성 알고리즘)*
  45. Experimental Design (실험계획법)


Comments