일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Machine Learning
- 김양재 목사
- probability
- MongoDB
- 빅 데이터
- WebGL
- data science
- 통계
- Artificial Intelligence
- 우리들교회
- 빅 데이타
- 김양재
- 주일설교
- 인공지능
- 빅데이터
- c++
- 빅데이타
- R
- node.js
- 김양재 목사님
- Deep learning
- nodeJS
- 데이터 과학
- No SQL
- openCV
- 몽고디비
- Big Data
- Statistics
- 딥러닝
- 확률
- Today
- Total
목록Map Reduce (3)
Scientific Computing & Data Science
흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다. 빅 데이터의 핵심 특징은 다음과 같다:크기 (Volume): 데이터의 방대한 양.다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.속도 (Velocity): 데이터는 신속하게 분석되어야 함.위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity..
맵 리듀스는 빅데이터에 있어 이상적인 소프트웨어 프레임웍이다. 왜냐하면 프로세서 분산 그룹 상에서 방대한 양의 비정형(unstructured) 데이터를 병렬로 처리할 수 있는 프로그램을 개발할 수 있는 도구이기 때문이다. 빅데이터를 위한 맵 함수맵(map) 함수는 다년간 많은 함수형 프로그래밍 언어의 일부였다. 맵은 데이터 요소의 처리 항목에 있어 핵심 기술로 새로운 활력을 불어 넣었다.함수형 언어의 운용자들은 데이터의 구조를 변경하지 않았다; 이들은 결과 출력을 위해 새로운 데이터 구조를 만들어냈다. 본래의 데이터 자체 또한 변경되지 않았다. 따라서 맵 함수를 무사히(?) 사용할 수 있는데 이는 여러분의 소중한 데이터에 어떤 해도 가하지 않을 것이기 때문이다.함수형 프로그래밍의 또다른 장점은 데이터의 ..
하둡(Hadoop, 이하 하둡)은 HDFS (하둡 분산 파일 시스템, Hadoop Distributed File System)와 맵 리듀스(Map Reduce, 이하 맵 리듀스)를 이용하여 하드웨어 클러스터(즉, 분산 컴퓨팅 환경) 상에서 빅데이터를 분석하는 오픈-소스 소프트웨어 프레임웍이다.하둡 분산 파일 시스템(HDFS)은 기업들이 간단하고도 실용적인 방식으로 거대한 양의 데이터를 보다 쉽게 관리할 수 있도록 개발된 것이다. 하둡은 큰 문제를 보다 작은 요소를 분할하여 신속한 분석과 비용에 있어서도 효과적이도록 하였다. HDFS는 빅데이터 환경에 있어 파일 관리를 위한 다목적의 탄력있는 클러스터 접근법이다.HDFS는 파일 관리의 최종 목적지가 아니다. 이는 데이터 볼륨과 벨라서티(velocity)가 ..