일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Machine Learning
- R
- MongoDB
- Statistics
- openCV
- 김양재 목사
- c++
- 빅데이타
- 몽고디비
- 인공지능
- 우리들교회
- data science
- 김양재
- Artificial Intelligence
- Deep learning
- 통계
- 김양재 목사님
- 데이터 과학
- No SQL
- 확률
- 빅 데이터
- 빅데이터
- nodeJS
- 주일설교
- Big Data
- node.js
- 딥러닝
- probability
- WebGL
- 빅 데이타
- Today
- Total
Scientific Computing & Data Science
[Data Science] 빅데이터 분석의 특성 본문
최근 좋은 이유로 빅데이터 분석에 대한 대대적 광고를 하고 있다. 이러한 움직임에 동참하려면 빅데이터 분석의 특성을 알아야 한다. 기업들은 빅데이터에 무언가 있다는 것을 인지하고 있지만 최근까지도 데이터 수집에 어려움을 겪어 왔다. 분석에 대한 이러한 추세는 빅데이터 분석 움직임의 흥미로운 양상이다.
기업들은 그들이 수집하고 있는 데이터에 접근하고 분석할 수 있다는 것과 이 데이터로부터 통찰력을 얻을 수 있다는 사실에 많은 기대를 하고 있지만, 효율적으로 관리되고 분석된 적은 없다. 이는 방대한 양의 다양한 데이터를 시각화하는 것일 수도 있고, 실시간으로 스트리밍을 분석하는 것일 수도 있다. 어떤 면에서는 진화적이며 어떤 면에서는 혁명적이다.
그래서 당신의 기업이 빅데이터 분석을 추진 시 어떤 차별화를 갖는가? 빅데이터를 지원하는 인프라 구조는 다양하며 인프라 구조 인식으로 변화해 오고 있다.
빅 데이터 분석은 다음 두가지 시각을 갖는다:
결정-지향
행동-지향
결정-지향 분석은 전통적 비즈니스 지능에 보다 가깝다. 보다 큰 데이터 소스의 선별적 부분집합과 표현방법을 보고 비즈니스 결정 과정에 대한 결과에 적용해 보아야 한다. 분명 이러한 결정은 어떠한 형태의 행동이나 과정 변화를 가져왔지만, 분석의 목적은 의사결정을 향상하는 것이다.
행동-지향 분석은 패턴이나 특정 종류의 데이터가 감지되저나 행동이 요구될 시 신속한 대응을 결정하는데 사용된다. 분석을 통한 빅데이터를 이용하거나 사전행동 또는 사후행동 변화를 일으키는 것은 얼리어답터에 대한 훌륭한 잠재성을 제공한다.
분석 어플리케이션을 만들어 빅데이터를 찾고 활용한다면 비교적 빠른 시일 내에 가치를 추출할 수 있는 열쇠를 쥐게 된다고 할 수 있다. 이것을 성취하려면, 바닥부터 커스텀 어플리케이션을 만들거나 플랫폼 또는 컴포넌트를 활용하는 것이 더 효과적이다.
우선 빅데이터에서 흔히 말하는 세 개의 V(볼륨(volume), 속도(velocity), 다양성(variety))를 제외한 전통적 분석법과는 다른 빅데이터 분석의 추가적 특성에 주목해야 할 필요가 있다:
프로그램적 특성. 가장 큰 변화 중 하나는 과거에는 데이터 세트를 다루는데 있어 사용자가 수동으로 데이터를 어플리케이션으로 로드하고 관찰했다는 점이다. 빅데이터 분석에 있어서는, 데이터의 스케일로 인해 데이터를 어떤 식으로든 관찰하려면 가공되지 않은 데이터를 프로그램 형태로 다루어야 하는 상황에 직면할 수 있다.
데이터 주도적. 데이터 과학자들이 데이터 분석 시 가설-주도적 접근방법(가설을 세우고 데이터를 수집하여 가설이 맞는지 검증하는 방식)을 사용하는 반면, 데이터가 분석을 주도하게끔 하는 방식을 사용할 수 있다 - 특히 엄청난 양의 데이터를 수집한다면 말이다. 예를 들어, 기계-학습 알고리즘을 활용하여 이러한 종류의 가설에서 자유로운 분석을 할 수 있다.
많은 특성을 활용. 과거에는, 데이터 소스의 수백가지의 특성 또는 특징을 다루어 왔을지 모른다. 이제는 수천개의 특성 및 수백만개의 관찰 결과를 구성하는 수백 기가바이트의 데이터를 다루어야 할 지 모른다. 모든 것은 이제 훨씬 큰 스케일로 나타나고 있다.
반복적. 컴퓨팅 능력의 증가는 원하는 분석 모델을 얻을 때까지 반복 처리를 할 수 있게 되었음을 의미한다. 다음 예를 살펴보자. 특정 고객의 행동양식에 대한 예측을 알아내고자 하는 모델을 세운다고 가정한다. 합리적인 샘플 데이터를 추출하거나 데이터가 존재하는 곳에 접속하는 것부터 시작할 것이다. 가설을 검증하기 위한 모델을 세울 수도 있을 것이다.
과거에는 모델의 효과적 작동에 그다지 많은 메모리가 필요하지 않았던 반면, 이제는 알고리즘 훈련에 필요한 요구 반복회수를 실행하려면 막대한 양의 물리적 메모리가 필요할 수도 있을 것이다. 자연 언어 처리 또는 데이터가 추가됨에 따라 학습을 할 수 있는 자동으로 모델을 진화시키는 신경망과 같은 고급 컴퓨팅 기술이 필요할 수도 있다.
서비스로서의 클라우드 기반 인프라구조를 활용하여 필요한 컴퓨팅 사이클을 신속하게 얻을 수 있다. 아마존 클라우드 서비스(Amazon Cloud Services, ACS)와 같은 서비스로서의 인프라구조(Infrastructure as a Serivce, IaaS) 플랫폼을 활용하여 신속하게 클러스터 머쉰을 구비하여 방대한 양의 데이터 세트를 처리하고 분석할 수 있다.
'Data Science > Posts' 카테고리의 다른 글
[Data Science] 빅데이터 팀 구성하기 (0) | 2014.02.08 |
---|---|
[Data Science] Terms for Big Data (0) | 2014.02.08 |
[Data Science] 헬스케어 산업에서의 빅데이터 스트리밍 (0) | 2014.02.05 |
[Data Science] 에너지 산업에서의 빅데이터 스트리밍 (0) | 2014.02.05 |
[Data Science] 공공 정책 효과를 지닌 빅데이터 스트리밍 (0) | 2014.02.04 |