일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 김양재 목사
- Big Data
- 김양재
- No SQL
- 데이터 과학
- Deep learning
- 인공지능
- 확률
- 빅 데이타
- 빅 데이터
- nodeJS
- R
- 김양재 목사님
- 주일설교
- WebGL
- data science
- 몽고디비
- probability
- 빅데이터
- c++
- MongoDB
- 빅데이타
- Statistics
- Artificial Intelligence
- 우리들교회
- openCV
- 딥러닝
- Machine Learning
- 통계
- node.js
- Today
- Total
목록맵리듀스 (3)
Scientific Computing & Data Science
원문: http://www.ciokorea.com/slideshow/19630/?slide=1#stage_slide오늘날 디지털 세계에는 데이터가 부족할 수가 없다. 오히려 데이터 과부하 시대라고 하는 표현이 더 어울리겠다. 기업들은 클라우드, 모바일 기술, 소셜 미디어에 투자하고 있다. 이와 함께 기업에 미치는 영향을 생각하면 얼마나 많은 데이터가 수집되고 있는지를 알 수 있을 것이다. 플로리다의 탐파(Tampa)에 본사를 둔 헤드헌팅 기업 케이포스(Kforce)의 최근 조사에 따르면 이런 데이터의 증가와 함께 데이터를 수집하고 정리하며 분석할 수 있는 사람들에 대한 수요도 늘어나고 있다고 한다. ETL(Extract(추출), Transfer(전송), Load(불러오기) 개발자데이터가 폭발적으로 증가하..
by Geol Choi | March 2, 2014앞의 글에서 설명했던 집합(aggregation) 연산자인 count, distinct, group으로 할 수 있는 모든 것 뿐만 아니라 더 많은 일들을 맵리듀스를 통해 할 수 있습니다. 특히 다중의 서버를 통해 집합 연산자를 쉽게 병렬로 처리할 수 있습니다. 맵리듀스는 문제를 여러 개의 덩어리로 분할하고, 각 덩어리를 다양한 머쉰으로 전송하고, 각 머쉰이 문제의 각 부분을 해결하도록 합니다. 모든 머쉰에서 처리가 모두 마무리되면 솔루션 결과를 모두 모아서 전체적인 솔루션으로 합칩니다.맵리듀스는 다음과 같은 절차로 처리됩니다.(1) 첫번째 단계는 "맵(Map)"이며, 이는 연산을 컬렉션 내의 각 도큐먼트로 매핑하는 것입니다. 이 연산은 "아무 것도 하지 ..
하둡(Hadoop, 이하 하둡)은 HDFS (하둡 분산 파일 시스템, Hadoop Distributed File System)와 맵 리듀스(Map Reduce, 이하 맵 리듀스)를 이용하여 하드웨어 클러스터(즉, 분산 컴퓨팅 환경) 상에서 빅데이터를 분석하는 오픈-소스 소프트웨어 프레임웍이다.하둡 분산 파일 시스템(HDFS)은 기업들이 간단하고도 실용적인 방식으로 거대한 양의 데이터를 보다 쉽게 관리할 수 있도록 개발된 것이다. 하둡은 큰 문제를 보다 작은 요소를 분할하여 신속한 분석과 비용에 있어서도 효과적이도록 하였다. HDFS는 빅데이터 환경에 있어 파일 관리를 위한 다목적의 탄력있는 클러스터 접근법이다.HDFS는 파일 관리의 최종 목적지가 아니다. 이는 데이터 볼륨과 벨라서티(velocity)가 ..