05-04 04:02
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Analysis] 개요 / 빅 데이터에 대하여 본문

Data Science/Data Analysis

[Data Analysis] 개요 / 빅 데이터에 대하여

cinema4dr12 2014. 4. 28. 22:21

흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다.

빅 데이터의 핵심 특징은 다음과 같다:

  • 크기 (Volume): 데이터의 방대한 양.

  • 다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.

  • 속도 (Velocity): 데이터는 신속하게 분석되어야 함.

위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity)까지 포함하여 4Vs라고도 한다.

데이터의 크기는 기가바이트(GB) 단위로부터 테라바이트(PB), 페타바이트(TB), 엑사바이트(EB)에 이른다. 다양성에 대해서는 분석할 대상이 되는 데이터가 사진, 비디오, 소셜, 모바일 등이며, 속도는 주기적, 거의 실시간 또는 실시간으로 데이터가 처리됨을 의미한다.

기업들에 있어 빅 데이터의 궁극적인 목표는 아마도 다양한 경로를 통해 유입되는 방대한 양의 데이터를 바탕으로 마켓 트렌드, 고객들의 반응 등을 신속하게 파악하여 새로운 사업 기회를 발견하는 것이라 생각된다. 또한 데이터의 공공성 측면에서 볼 때, 재난 방지, 인명 구조, 교통난 해소 등이 될 것이다.

빅 데이터 처리에 대한 가장 공통적인 아키텍처는 맵 리듀스(Map Reduce)이며 이는 분산 클러스터를 이용하여 대규모의 데이터셋에 대한 병렬 처리를 위한 프로그래밍 모델이다. 이를 지원하는 가장 대표적인 소프트웨어는 Apache의 HadoopMongoDB 등이 있다.

Comments