일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 빅 데이터
- probability
- 인공지능
- Big Data
- node.js
- No SQL
- Artificial Intelligence
- 데이터 과학
- 딥러닝
- 빅 데이타
- 우리들교회
- 김양재
- 통계
- 빅데이터
- 김양재 목사
- WebGL
- Statistics
- c++
- R
- data science
- 주일설교
- openCV
- Deep learning
- 확률
- 김양재 목사님
- 빅데이타
- MongoDB
- Machine Learning
- nodeJS
- 몽고디비
- Today
- Total
목록hadoop (8)
Scientific Computing & Data Science
흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다. 빅 데이터의 핵심 특징은 다음과 같다:크기 (Volume): 데이터의 방대한 양.다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.속도 (Velocity): 데이터는 신속하게 분석되어야 함.위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity..
원문 : http://www.ciokorea.com/news/10871인포월드 선정 10대 기업용 신기술 ①과 인포월드 선정 10대 기업용 신기술 ②에 이어 아파치 하둡, 고도의 동기화, 소프트웨어로 정의된 네트워크, 프라이빗 클라우드 통합에 대해 소개하고자 한다. 10. HTML5 9. 클라이언트 단의 하이퍼바이저 8. 지속적인 개발 툴 구축 7. 칩에 대한 신뢰 6. 자바스크립트의 대체 5. 분산된 스토리지 계층 4. 아파치 하둡 3. 고도의 동기화 2. 소프트웨어로 정의된 네트워크 1. 프라이빗 클라우드 통합 4. 아파치 하둡2년 전, 우리는 완전히 새로운 전망(범용 하드웨어 그리고/또는 공공 클라우드 서비스를 이용한 로그 파일이나 웹 클릭스트림(Clickstream) 등의 비정형(또는 부분적으로 ..
원문: http://www.itworld.co.kr/news/86608자사에서 막대한 데이터를 다루고 있다면 하둡을 반드시 고려해봐야 한다. 한때 구글과 야후!와 같은 글로벌 인터넷 기업의 전유물이던 가장 인기있고 잘 알려진 빅데이터 관리 시스템이 이제 다른 기업에까지 확산되고 있다.거기에는 두 가지 이유가 있다. 첫째, 기업이 관리해야 될 데이터가 훨씬 많아졌고, 하둡은 기존의 정형 데이터와 새로운 비정형 데이터를 혼합하는데 탁월한 플랫폼이라는 점이다. 둘째, 수많은 개발업체가 하둡 지원과 서비스를 제공하는데 뛰어들어 기업 입장에서 선택의 폭이 늘어났다는 것이다.포레스터 2013년 4분기 소프트웨어 조사 보고서에 따르면, 대부분의 기업들은 이미 보유한 데이터 가운데 단 12%만을 분석하고 있으며, 나머..
원문: http://www.ciokorea.com/slideshow/19630/?slide=1#stage_slide오늘날 디지털 세계에는 데이터가 부족할 수가 없다. 오히려 데이터 과부하 시대라고 하는 표현이 더 어울리겠다. 기업들은 클라우드, 모바일 기술, 소셜 미디어에 투자하고 있다. 이와 함께 기업에 미치는 영향을 생각하면 얼마나 많은 데이터가 수집되고 있는지를 알 수 있을 것이다. 플로리다의 탐파(Tampa)에 본사를 둔 헤드헌팅 기업 케이포스(Kforce)의 최근 조사에 따르면 이런 데이터의 증가와 함께 데이터를 수집하고 정리하며 분석할 수 있는 사람들에 대한 수요도 늘어나고 있다고 한다. ETL(Extract(추출), Transfer(전송), Load(불러오기) 개발자데이터가 폭발적으로 증가하..
원문: http://www.itworld.co.kr/t/54649/빅%20데이터/86155빅데이터와 기존에 있던 DW, BI, 통계 분석과는 무엇이 다른가. 미래읽기 장동인 대표는 최근 자신의 페이스북을 통해 빅데이터와 DW, BI, 통계 분석과 다른 점이 무엇인가라는 화두를 던졌다. 장동인 대표는 현장에서 강의를 하다보면 자주 듣는 질문 가운데 하나가 바로 '빅데이터가 지금까지 있었던 DW, BI, 통계분석과 무엇이 다른가'라는 것이라고 말했다. 장 대표는 "해답은 아주 간단하지만 많은 사람이 헷갈리는 것 가운데 하나"라며, "이들의 다른 점을 모른다면 다음 단계에서는 혼돈의 연속이 될 것"이라고 설명했다. 장 대표의 설명에 따르면, 지금까지의 DW, BI, 통계분석의 가장 기본은 RDBMS이다. 소위..
원문: http://www.ciokorea.com/news/19808하둡 업체인 클라우데라가 클라우데라의 하둡 환경에서 실시간으로 데이터를 분석하는 아파치 스파크(Apacahe Spark) 프로그램의 상용 버전을 개발했다. 이 상용 버전은 스트림 처리와 빠른 기계 학습을 위한 하둡 사용을 확대할 수 있다. 클라우데라의 제품 마케팅 담당 이사 매트 브랜드웨인은 "데이터 과학자들이 스파크를 좋아한다"라고 밝혔다. 브랜드웨인은 "지금까지 보면, 하둡을 사용한다고 하면, 대게 맵리듀스를 쓴다고 할 수 있다. 그러나 맵리듀스는 정말 느리다"라며 “맵리듀스 프레임워크는 여러 읽기 및 기계 학습 임무를 수행하기 위해 디스크에 많이 기록해야 한다”고 지적했다. 데이터가 메모리 작업에 머물러 있는 동안 스파크는 이 작업..
원문: http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&oid=138&aid=0001990457 [디지털데일리 심재석기자] 스트븐 브롭스트 테라데이타 최고기술책임자(CTO)는 13일 서울 삼성동 코엑스인터콘티넨탈 호텔에서 열린 ‘테라데이타 유니버스 서울 2012’ 행사에서 두 차례에 걸쳐 열정적으로 기조연설을 했다. 때로는 맨말로 무대에 오르기도 한다는 그는 테라데이터에 대한 자부심이 넘쳐 보였다. 그는 테라데이타 CTO이자, 데이터 웨어하우징 분야의 세계적인 권위자로 평가받는 인물이다. 첫 연설에서 그는 ‘비즈니스 인텔리전스에서 절대 간과할 수 없는 네 가지 트렌드’라는 주제로 ▲센서기술 ▲비즈니스 인텔리전스의 일상화(pervasive BI..
하둡(Hadoop, 이하 하둡)은 HDFS (하둡 분산 파일 시스템, Hadoop Distributed File System)와 맵 리듀스(Map Reduce, 이하 맵 리듀스)를 이용하여 하드웨어 클러스터(즉, 분산 컴퓨팅 환경) 상에서 빅데이터를 분석하는 오픈-소스 소프트웨어 프레임웍이다.하둡 분산 파일 시스템(HDFS)은 기업들이 간단하고도 실용적인 방식으로 거대한 양의 데이터를 보다 쉽게 관리할 수 있도록 개발된 것이다. 하둡은 큰 문제를 보다 작은 요소를 분할하여 신속한 분석과 비용에 있어서도 효과적이도록 하였다. HDFS는 빅데이터 환경에 있어 파일 관리를 위한 다목적의 탄력있는 클러스터 접근법이다.HDFS는 파일 관리의 최종 목적지가 아니다. 이는 데이터 볼륨과 벨라서티(velocity)가 ..