05-19 00:02
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science] 데이터 스트림에 있어 메타데이터의 중요성 본문

Data Science/Posts

[Data Science] 데이터 스트림에 있어 메타데이터의 중요성

cinema4dr12 2014. 3. 14. 20:35

대부분의 빅데이터 관리 전문가들은 구조형 데이터베이스 관리 환경에서 메타데이터 관리의 필요성에 익숙하다. 이러한 데이터 소스들은 강한 유형적 틀을 지니며(예를 들어, 첫번째 10글자는 이름으로 정하는 것 등) 메타데이터 운영을 위해 설계되었다. 메타데이터가 비정형 구조 데이터에서는 존재하지 않는 것으로 가정하는 경우가 많은데 사실은 그렇지가 않다.

통상적으로 어떤 유형의 데이터든지 구조를 발견할 수 있다. 비디오의 예를 들어 보자. 특정 비디오 콘텐츠를 정확히 알 수는 없지만 비디오 기반 데이터의 포맷 내에 많은 구조가 존재한다. 만약 비정형 구조의 텍스트를 본다면 영어로 씌어져 있는 단어들을 볼 수 있으며 적합한 툴을 적용한다면 텍스트를 해석할 수 있다.

비정형 구조 데이터로부터 이러한 내포적 메타데이터로 인해, XML을 이용한 정보 파싱을 할 수 있다. XML은 의미있는 태그들을 이용하여 비정형 구조의 텍스트 파일을 표현하는 기술이다. 기반 기술은 새로운 것이 아니지만 서비스 실행에 있어서는 기초적인 기술들 중의 하나이다.

스트리밍 데이터에 대한 제품의 예는 IBM의 InfosSphere Stream, 트위터의 Storm, Yahoo의 S4 등이 있다.

빅데이터와 IBM InfoSphere Streams

InfoSphere Streams는 방대한 양의 데이터 볼륨의 지속적인 분석 서비스를 제공한다. 이것은 text, 이미지, 오디오, 음성, VoIP, 비디오, 웹 트래픽, e-mail, GPS 데이터, 금융 거래 데이터, 위성 데이터, 센서 등을 포함하는 이종 데이터 형태의 복잡한 해석을 수행하도록 되어 있다. InfoSphere Streams는 모든 데이터 유형을 지원할 수 있다. 디지털 필터링, 패턴/관계 분석, 기하공간 분석 및 분해 등을 활용하여 규칙적으로 생성된 데이터의 실시간 분석 및 미래의 예측까지도 수행할 수 있다. 

빅데이터와 트위터의 Storm

트위터의 Storm은 2011년 트위터가 부분적으로 인수하느 회사인 BackType이 개발한 오픈소스 실시간 분석 엔진이다. Strorm은 여전히 오픈소스이며 새롭게 대두되는 기업들 사이에 엄청난 인기를 얻고 있다.

Storm은 실시간 분석, 연속 계산, 분산 원격 프로시저 호출(Remote Procedure Calls, RPC), 통합 등과 같은 어플리케이션에 대한 프로그래밍 언어와 연동이 가능하다. Storm은 기존의 데이터베이스 기술과의 연동을 위해 설게되었다. 빅데이터 수행에 있어 Storm을 사용하는 기업들은 Groupon, RocketFuel, Navisite, Oolgala 등이 있다.

빅데이터와 Apache S4

S4의 네 개의 S는 단순 확장형 스트리밍 시스템(Simple Scalable Streaming System)을 의미한다. Apache S4는 Yahoo!가 개발하였으며 개발자들이 데이터의 연속 스트림을 처리하는 어플리케이션을 쉽게 개발할 수 있도록 범용적이고 분산 및 확장가능하며 부분적으로 오류가 용인되는 플러그인 형태의 플랫폼이다. 코어 플랫폼은 Java로 프로그래밍 되어 있으며 2010년 Yahoo!에 의해 출시되었다.

일년 후, Apache S4는 Apache 2.0 라이선스로 Apache로 인계되었다. 어느 프로그래밍 언어든 이벤트를 전송하고 전송받는 클라이언트를 작성할 수 있다. 클러스터에 노드를 더하면 처리량을 선형적으로 증가시킬 수 있다. S4 디자인은 데이터 마이닝에 대한 대규모 어플리케이션과 제품 환경의 기계 학습에 적합하다.

Comments