05-04 00:07
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Analysis] 개요 / 데이터의 분류 및 특성 본문

Data Science/Data Analysis

[Data Analysis] 개요 / 데이터의 분류 및 특성

cinema4dr12 2014. 4. 14. 23:16

우리가 살고 있는 세계는 사방이 모두 데이터이다. 그것이 정형이든 비정형이든, 연속된 것이든 이산이든 날씨 데이터, 주식 거래 데이터, 소셜 미디어 사이트의 좋아요 수, 포토 앨범, 음악 재생 리스트 등 모든 것이 데이터이다. 사실 데이터라는 것은 모든 인간 활동의 기본 부산물이라 할 수 있다. 세계적 권위의 사전인 Oxford 사전은 데이터에 대해 다음과 같이 정의하고 있다:

"Data are known facts or things used as basis for inference or reckoning."
"데이터는 추측이나 예측을 위한 기반으로 활용되는 알려진 사실 또는 알려진 것이다."

데이터는 다음과 같이 분류할 수 있다:

  • Data
      • 범주형(categorical)
          • 명사형(nominal)
          • 순서형(ordinal)
      • 수치형(numerical)
          • 이산형(discrete)
          • 연속형(continuous)


범주형 데이터는 말그대로 특정 범주로 분류할 수 있는 유형의 데이터를 의미한다. 범주형 데이터는 명사형 데이터와 순서형 데이터로 다시 분류할 수 있으며, 명사형 데이터는 해당 범주에 있어 분명한 순서를 정할 수 없는 이름으로 분류가 가능한 데이터이다. 예를 들어, '주택'이라는 범주는 다시 '소유형' 및 '렌탈형'으로 분류할 수 있는데, '소유형' 및 '렌탈형'이 바로 명사형 데이터 분류이다. 순서형 데이터는 순서를 명확히 정의할 수 있는 데이터 분류이며 예를 들어 '키', '나이', '몸무게' 등을 기준으로 분류하는 것이다. '나이'를 기준으로 '영아', '유아', '어린이', '청소년', '청년', '장년', '노인' 등으로 데이터를 분류하는 것으로 생각하면 된다.

수치형 데이터는 측정이 가능한 데이터 유형이다. 수치형 데이터는 이산형과 연속형으로 분류할 수 있으며, 이산형은 연속적이지 않은 수치 데이터의 범주이다. 예를 들어, '나이' 등이 될 수 있다. 연속형 데이터는 측정되는 데이터가 연속되는 데이터이며, '키'나 '몸무게' 등이 될 수 있다.

데이터 과학에서 데이터를 분류하는 기준을 구조형(structured)와 비구조형(unstructured)로 분류하기도 하는데, 최근 빅 데이터에 관심이 높아지면서 과거 데이터와 실시간으로 생성되는 데이터를 기반으로 가치를 찾아내는데 있어 웹의 역할이 점점 커지고 있다. 웹에서 생성되는 데이터는 비구조형 데이터가 상대적으로 많으며 이를 어떻게 저장하고 분석할 것인가가 빅 데이터의 발전에 있어 주요 이슈로 떠올랐다.

데이터의 분류기준을 구조형/비구조형 및 이산형/연속형으로 정의할 때 주요 데이터의 분류는 다음과 같다:

  • 이메일: 비구조형, 이산형

  • 디지털 이미지: 비구조형, 이산형

  • 주식 시장 로그: 구조형, 연속형

  • 금 값 변화: 구조형, 연속형

  • 신용 승인 기록: 구조형, 이산형

  • 소셜 미디이 친구 및 관계: 비구조형, 이산형

  • 트위터 트렌드 토픽: 비구조형, 이산형

  • 판매 기록: 구조형, 연속형


Comments