05-02 06:32
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Analysis] 개요 / 데이터 분석 관련 분야 본문

Data Science/Data Analysis

[Data Analysis] 개요 / 데이터 분석 관련 분야

cinema4dr12 2014. 4. 14. 18:10

"데이터 분석"이란 가공되지 않은 데이터를 정렬하고 조직화하여 과거를 설명하고 미래를 예측할 수 있는 방법을 세우는 과정이다. 데이터 분석은 단순한 숫자에 관한 것이 아니며, 질문을 세우거나 질문을 하는 것, 설명 방식에 대한 개발을 하는 것, 가설을 검증하는 것에 관한 것이다. 

데이터 분석은 다중의 분야를 융합하는 것으로써, 해당 분야는 컴퓨터 과학(Computer Science), 인공 지능(Artificial Intelligence), 기계 학습(Machine Learning), 통계와 수학(Statistics & Mathematics), 지식 도메인(Knowledge Domain)이다.

컴퓨터 과학

컴퓨터 과학은 데이터 분석과 분석된 데이터의 설명을 위한 가시화에 관련된 도구를 제공한다. 데이터 분석과 관련된 컴퓨터 과학의 분야에는 프로그래밍, 데이터베이스 관리, 네트워크 관리, 고성능 계산 등이 포함된다.

인공지능(Artificial Intelligence; AI)

인공 지능은 지능형 거동을 시뮬레이션 하는 스마트한 알고리즘을 연구하는 분야이다. 인공 지능은 추론(inference), 유사성 검색(similarity search), 자율 학습 분류(unsupervised classification) 등과 같은 지능형 시뮬레이션을 수행하기 위해 사용될 것이다.

기계학습(Machine Learning; ML)

기계 학습은 특정 상황에서의 반응 또는 패턴을 인식하는 방식을 학습하는 컴퓨터 알고리즘을 연구하는 분야이다. Arthur Samuel(1959)은 기계 학습에 대해 다음과 같이 정의하였다:

"기계 학습은 명확한 프로그래밍 없이 컴퓨터로 하여금 학습할 수 있는 능력을 부여하는 연구 분야이다."

기계 학습은 다음과 같이 크게 세 가지 분야로 분류할 수 있다:

  • 지도 학습(Supervised Learning)

  • 자율 학습(Unsupervised Learning)

  • 강화 학습(reinforcement Learning)

통계학

통계학은 데이터를 수집하고, 분석하고, 해석하는 방법에 대한 개발과 응용에 관한 학문이다.

데이터 분석은 시뮬레이션, 베지언(Bayesian) 방법론, 예측(Forecasting), 회귀분석(Regression), 시계열 분석(Time-series Analysis), 클러스터링(Clustering) 등과 같은 다양한 통계 방법론을 요구한다.

수학

데이터 분석은 선형대수학(벡터, 행렬, 고유치 문제 등), 수치 해석, 조건부 확률 등과 같은 다양한 수학적 방법론을 요구한다.

지식 도메인

데이터 분석에 있어 가장 중요한 활동 중의 하나가 데이터 분석이 어느 분야(지식 도메인)를 타겟으로 하고 있는가에 대한 목표를 세우고, 이를 달성하기 위한 문제를 정의하는 것이다. 지식 도메인을 분명하게 이해하는 것이 데이터 전문가로서 전문 역량을 갖추는 것이며, 훌륭한 질문을 수립하기 위한 직관력을 키우는 일 또한 매우 중요하다.

데이터 분석은 금융, 경영, 비즈니스, 소셜 미디어, 정부, 과학분야 등 거의 대부분의 영역에서 사용되고 있다.

데이터, 정보, 지식

인류의 문명을 이끌어 온 산업 패러다임은 수렵, 농업, 공업을 거쳐 최근 서비스, 정보산업을 거쳐 지식산업으로 이동하고 있다.

과거와 현재의 "지식"이라 함은 쌓여온 데이터를 분석하고 해석하는 능력을 일컬었지만 미래의 "지식"은 이에 더하여 미래를 예측할 수 있는 능력까지 포함하게 될 것이다. 미래를 예측하려면 과거로부터 현재까지의 "데이터"를 수집하고, 이를 분석하여 "정보"를 만들고, 이를 해석하여 "지식"을 창출해야 한다.

데이터, 정보, 지식 간에 관계는 다음과 같다. 우선 데이터는 세상을 바라보는 "사실(fact)" 그 자체이다. 예를 들어, 금융 거래, 온도, 풍향 및 풍속, 사무실에서 집까지의 거리 등과 같은 단순 숫자 또는 문자이다. 정보는 이러한 데이터를 기반으로 가치와 의미를 찾은 결과이다. 지식은 이러한 정보를 바탕으로 의사결정을 돕기 위한 규칙으로 변환한 것이다. 이 세가지 중 지식 부분은 기계가 대신하기 어려운 인간이 고유의 영역에 가깝다. 왜냐하면 이 영역은 예측 분석 모델을 세우고 이를 이용한 지적 거동 시뮬레이션을 통해 실제와 유사한 결과를 이끌어내야 하는 부분이기 때문이다.

다음의 예는 데이터, 정보, 지식 간의 관계를 설명하고 있다:

Comments