01-04 10:37
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science] 빅데이터 파라독스 본문

Data Science/Posts

[Data Science] 빅데이터 파라독스

cinema4dr12 2014. 3. 5. 12:01

여러분은 빅데이터 분석에 대한 뉘앙스를 깨닫게 될 것이다. 이것은 정말 작은 데이터에 관한 것이다. 이것이 혼란스러워 보일 수도 있고 전체적인 전제에 위반되는 것처럼 보일 수도 있지만, 작은 데이터는 빅데이터 분석의 결과이다. 전혀 새로운 개념도 아니며, 오랜동안 데이터 분석을 해왔던 사람들에게 익숙하지 않은 것도 아니다. 전체 작업 공간은 커지고 있으나, 해답은 "작다"는 것 어딘가에 존재한다.

전통적 데이터 분석은 고객 정보, 제품 정보, 거래 정보, 원격측정 데이터 등등으로 가득찬 데이터베이스로 시작했다. 그 당시에도 가용 데이터는 차거 넘쳐서 효율적인 데이터 분석이 불가능했다. 시스템, 네트워크, 소프트웨어는 스케일을 논할 만한 성능이나 용량이 되지 않았다. 산업 곳곳에서 보다 작은 데이터 세트를 만들어내는 것은 꽤나 골치아픈 일이었다.

이렇게 보다 작은 데이터 세트는 꽤 실질적이나 다른 결함들 또한 바로 발견된다; 가장 눈에 띄는 것은 데이터와 작업 맥락 사이의 불일치이다. 인터넷 결제 분야에서 일해 본 경험이 있는 사람은 알겠지만, 작업을 위해 많은 양의 관계없는 데이터를 들여다 보아야만 한다. 다시, 산업은 보다 더 작은, 맥락상 관계있는 데이터 세트 - 큰 것에서 작은 것으로, 그리고 보다 더 작은 것으로 - 에 반응한다.

아마도 이것을 데이터베이스로부터 데이터 웨어하우스로 데이터 웨어하우스로부터 데이터 마트로의 이관으로 인식할 수도 있다. 종종 웨어하우스에 대한 데이터와 데이터 마트는 임의의 또는 실험적인 파라미터로 선택되며 이는 수많은 시행착오의 결과와 연결된다. 용량 감축은 계산 결과에 기반하지 않았기 때문에 비즈니스는 원하는 시야를 얻지 못하고 있으며 얻을 수 있는 가능성도 없었다.

볼륨(Volumes), 속도(Velocities), 다양성(Varieties)로 대변되는 빅데이터 문제는 정체되거나 혹은 퇴보한다. 인프라 구조의 약점이 논의되어 왔으며 엄청난 양의 부가적 데이터를 저장하고 처리할 수 있지만 빅데이터를 관리하는 특정의 새로운 기술이 필요했다.

이러한 겉모양만으로도 이것은 훌륭한 것이다. 오늘날 그리고 미래에, 기업들은 상상할 수 있는 것보다 더 많은 데이터를 갖게될 것이며 이 데이터를 수집하고 관리하는 수단도 갖게 될 것이다. 뭉서보다 필요한 것은 적시에 적절한 데이터를 분석할 수 있는 역량과 이에 따른 의사 결정과 행동을 할 수 있는 역량을 갖추었느냐이다.

비즈니스는 데이터 세트를 "현업에 당장 적용할 수 있는 수준"으로 줄일 것이지만, 전산학의 도움을 받아야 한다. 비즈니스는 빅데이터를 처리하고 이해하기 쉽도록 작은 데이터로 변환한다. 이렇게 하는 것은, 훨씬 더 큰 시작점으로부터 기인하였기 때문이며, 맥락 상으로도 적절하기 때문이다.

Comments