04-29 02:46
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science / Posts] Big Data에 대한 생각 본문

Data Science/Posts

[Data Science / Posts] Big Data에 대한 생각

cinema4dr12 2015. 1. 10. 13:12

빅 데이터는 오늘날 모호한 허술하게 사용되는 모호한 용어이다. 간단히 표현하여 캐치프레이즈는 세 가지를 담고 있다. 첫째, 빅 데이터는 기술의 집약체이다. 둘째, 측정에 있어 잠재적 혁명이다. 셋째, 미래에 이루게 될 결정방법에 대한 관점 또는 철학이다.

-  Steve Lohr
The New York Times

[빅 데이터에 대하여 재고할 세 가지]


1. "빅"은 움직이는 목표이다.

빅 데이터를 1 페타바이트와 같은 크기 이상의 데이터로 규정하는 하는 것은 의미없다.

왜냐하면 크기에 대한 절대적인 조건이 있는 것처럼 생각되기 때문이다.

크기가 도전적인 문제가 될 때에만 "빅"이라고 칭할 수 있을 것이다.

따라서 "빅"의 개념은 데이터의 크기가 기존의 계산 도구가 감당할 수 있는 한계(메모리, 스토리지, 복잡도, 처리 속도 등)를 넘어서는 것과 관련된 상대적 개념이다.

1970년 대에는 이러한 개념은 지금의 개념과는 많이 다르다.


2. "빅"은 하나의 머신으로 감당이 안 되는 것이다.

다양한 개인과 기업들의 활용 가능한 자원은 제각각이다.

따라서 개별 데이터 과학자에게 있어 한 대의 머신으로 충분치 않다면 새로운 호스트 도구 및 방법을 사용하는 방법을 익혀야 한다.


3. 빅 데이터는 문화 현상이다.

이것은 데이터가 우리 개개인의 삶에 얼마나 지대한 영향을 주는지 설명하는 것이다.

단순히 기술적인 진보의 문제를 넘어서서 말이다.


* 4Vs:

흔히 빅 데이터는 4 개의 "V"로 대변된다.

즉, Volume(데이터의 양), Variety(데이터의 다양성), Velocity(데이터의 수집 및 처리 속도), Value(데이터의 가치)

여기에 Veracity(데이터의 진실성)을 더하여 5Vs로 표현하는 경우도 있다.


Comments