01-22 00:13
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science] 하둡을 이용한 데이터 관리: Hadoop과 Map Reduce 본문

Data Science/Posts

[Data Science] 하둡을 이용한 데이터 관리: Hadoop과 Map Reduce

cinema4dr12 2014. 1. 7. 22:33

하둡(Hadoop, 이하 하둡)은 HDFS (하둡 분산 파일 시스템, Hadoop Distributed File System)와 맵 리듀스(Map Reduce, 이하 맵 리듀스)를 이용하여 하드웨어 클러스터(즉, 분산 컴퓨팅 환경상에서 빅데이터를 분석하는 오픈-소스 소프트웨어 프레임웍이다.

하둡 분산 파일 시스템(HDFS)은 기업들이 간단하고도 실용적인 방식으로 거대한 양의 데이터를 보다 쉽게 관리할 수 있도록 개발된 것이다. 하둡은 큰 문제를 보다 작은 요소를 분할하여 신속한 분석과 비용에 있어서도 효과적이도록 하였다. HDFS는 빅데이터 환경에 있어 파일 관리를 위한 다목적의 탄력있는 클러스터 접근법이다.

HDFS는 파일 관리의 최종 목적지가 아니다. 이는 데이터 볼륨과 벨라서티(velocity)가 높을 때 필요한 역량을 제공하는 일종의 "서비스"이다.

맵 리듀스는 프로세서의 분산 그룹 상에서 방대한 양의 비정형(unstructured) 데이터를 처리할 수 있는 프로그램을 개발하는 소프트웨어 프레임웍이다. 맵 리듀스는 배치(batch) 모드에서 많은 양의 데이터에 대한 함수 집단을 효율적으로 실행하는 방식으로 Google에 의해 설계되었다.

"맵" 구성요소는 프로그래밍 문제 또는 많은 수의 시스템에 대한 태스크를 분산하고 로드 밸런스와 오류로부터의 회복을 관리하는 방식으로 태스크의 배치를 핸들링한다. 분산 계산이 완료된 후에는 "리듀스"라 불리우는 다른 함수가 모든 요소를 취합하여 결과를 산출한다. 맵 리듀스의 활용의 한 가지 예는 50개의 언어로 된 각각의 책이 과연 몇 페이지로 이루어져있는지 알아내는 연산이다.

Comments