일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 김양재 목사
- 몽고디비
- Statistics
- 데이터 과학
- MongoDB
- 빅데이터
- 빅 데이타
- Big Data
- 확률
- 빅 데이터
- 빅데이타
- 주일설교
- Deep learning
- 인공지능
- 김양재 목사님
- Artificial Intelligence
- Machine Learning
- 통계
- WebGL
- 딥러닝
- node.js
- No SQL
- 김양재
- R
- nodeJS
- data science
- c++
- openCV
- 우리들교회
- probability
- Today
- Total
목록데이터 (8)
Scientific Computing & Data Science
Retrosheet는 메이저리그 야구의 play-by-play Game Logs를 .zip 압축 파일 형태로 제공한다. Game Logs를 분석하기 위해 Retrosheet 웹사이트에서 일일이 .zip 파일들을 다운받아 압축을 풀어 불러올 수 있겠지만 여간 번거로운 것이 아닐 것이다. 이번 포스팅에서는 Retrosheet 웹사이트가 제공하는 Game Logs 파일들을 다운받아 CSV 형식으로 Data Frame에 저장하고 이를 MongoDB에 저장하고 또한 DB로부터 데이터를 불러오는 방법에 대하여 설명하도록 하겠다. 우선 Retrosheet 웹사이트를 방문하면 상단에 Data downloads > Game logs를 클릭한다. Game logs 페이지에 보면 1871년부터 2016년까지의 Game Lo..
통계와 야구는 매우 밀접한 관계를 가지고 있지만, 단순히 안타수를 타수로 나누어 타율을 구하는 것 외에 통계는 더 많은 의미를 가지고 있다. 야구의 통계 분석 도구인 Sabermetric 역시 탸율보다 더 많은 의미를 담고 있습니다. 많은 야구팬들 또한 통계에 미친(?) 사람들(역으로, 통계에 미친 사람이 야구 팬일 확률도 높음)이며, 야구 데이터의 심오한 통계 분석을 해오고 있는데, 대개 그 도구는 R입니다. 야구 분석 웹사이트의 Dave Allen은, 그의 동료 Jeremy Greenhouse처럼 자주 R을 이용하여 PitchFX 데이터를 시각화합니다 (가령, 최적의 스윙률 분석). Ryan Elmore는 ESPN의 스포츠 분석팀에 R을 이용한 상세 데이터 분석에 영감을 주었습니다. Hardball ..
이전 글(R과 MongoDB 연동하기(rmongodb))에서 R의 MongoDB 관련 패키지인 rmongodb를 이용하여 R과 MongoDB를 연동하는 방법에 대해 소개한 바 있다. 그러나 rmongodb 패키지는 CRAN에서 제거되었으며, 이를 대신하여 mongolite 패키지를 사용할 수 있게 되었다. 이번 글에서는 mongolite 패키지를 이용하여 R과 MongoDB를 연동하여 데이터 도큐먼트 저장, 삭제, 업데이트 등을 하는 방법에 대하여 알아보도록 하겠다. 사용된 데이터는 다음 링크를 클릭하여 다운 받도록 한다: MongoDB 실행하기R의 Working Directory에 MongoDB 데이터를 저장할 폴더를 하나 생성하고 Command Line Tool에서 다음 명령을 통해 MongoDB를 ..
원문 : http://www.bloter.net/archives/266469?utm_source=newsletter&utm_medium=email&utm_term=&utm_content=데이터+시각화,+보이는+작업량은+빙산의+일각&utm_campaign=BloterLetter 데이터시각화, 보이는 작업량은 빙산의 일각 사람들이 인터랙티브 데이터 시각화를 보고 가장 많이 물어보는 것 중 하나는 ‘어떻게 만드나요?’다. 늘 답변하기 어려웠다. 사용하는 도구도 단계마다 바뀌고 작업과정도 단계마다 특징이 다르기 때문이다. 그래서 이번 글에서 하나의 인터랙티브 데이터 시각화를 어떤 과정을 거쳐 제작하는지 정리하려고 한다.제작의 시작은 도구를 준비하는 것이다. 장인은 도구를 탓하지 않는다고 하지만 그래도 각 도구를..
한달 2억명씩 올리는 영화평에 오스카·칸도 눈치보기할리우드의 감춰진 '빅마우스' 영화광이 된 공학도 48시간마다 1편씩 감상…줄거리·배우·뒷이야기·감상평 올려 할리우드의 백과사전 35만편 영화 정보 간직 영화평 삭제 등 허위정보 판치자 신뢰도 떨어진 정보 자동 삭제 영화 마니아 팬사이트? 아마존과 손잡은 뒤 유료 회원에 제작 스케줄 등 프리미엄 정보 제공 댓글 고려해 스토리 결말도 바꿔 1967년 영국 맨체스터 외곽의 덴턴에서 태어난 한 소년은 어린 시절이 따분하기만 했다. 하루의 대부분을 지역신문 영업소를 운영하는 할머니 할아버지와 함께 보냈다. 여덟 살이 되던 해 엄마의 손에 이끌려 난생처음 극장을 찾았다. 당시 화제작 ‘죠스’를 봤다. 영화가 너무 실감나고 무서웠던 이 소년은 한동안 바닷가는커녕 수..
Written by cinema4dCreate"title", "content", "date" 키를 갖는 "post" 변수 생성 :> post = {"title" : "My first blog post", ... "content" : "Getting started with MongDB", ... "date" : new Date()} { "title" : "My fist blog post", "content" : "Getting started with MongDB", "date" : ISODate("2014-01-13T14:40:39.232Z") }insert 메써드를 이용하여 "post" 변수를 "blog" 콜렉션에 저장 :> db.blog.insert(post)find 메써드를 입력하면 "blog" 콜렉..
빅데이터 분석의 장점 중 한 가지는 아마도 사기 예방일 것이다. 수많은 평가를 통해 보험 회사가 지급하는 보험료의 적어도 10퍼센트는 사기에 대한 것이며, 전세계의 사기 피해로 인한 보상은 수백만에서 수억 달러 규모에 이른다. 보험 사기가 새로운 문제는 아니지만 문제의 심각성은 나날이 증가하고 있으며 보험 사기의 가해자의 수법 또한 정교해지고 있다. 그렇다면 과연 보험 회사가 사기를 감지하는 방안에 있어 빅데이터가 할 수 있는 역할은 무엇일까? 보험 회사는 가급적 초기에 사기를 방지하려고 한다. 월급, 의료비 청구, 변호사 비용, 인구 통계, 날씨 데이터, 콜센터 기록, 음성 데이터 기록 등의 과거 데이터 및 실시간 데이터를 기반으로 한 예측 모델을 개발하여 회사들은 초기 단계에 사기성이 있는 수상한 클..
맵 리듀스는 빅데이터에 있어 이상적인 소프트웨어 프레임웍이다. 왜냐하면 프로세서 분산 그룹 상에서 방대한 양의 비정형(unstructured) 데이터를 병렬로 처리할 수 있는 프로그램을 개발할 수 있는 도구이기 때문이다. 빅데이터를 위한 맵 함수맵(map) 함수는 다년간 많은 함수형 프로그래밍 언어의 일부였다. 맵은 데이터 요소의 처리 항목에 있어 핵심 기술로 새로운 활력을 불어 넣었다.함수형 언어의 운용자들은 데이터의 구조를 변경하지 않았다; 이들은 결과 출력을 위해 새로운 데이터 구조를 만들어냈다. 본래의 데이터 자체 또한 변경되지 않았다. 따라서 맵 함수를 무사히(?) 사용할 수 있는데 이는 여러분의 소중한 데이터에 어떤 해도 가하지 않을 것이기 때문이다.함수형 프로그래밍의 또다른 장점은 데이터의 ..