일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- data science
- Machine Learning
- Artificial Intelligence
- 김양재
- 빅 데이터
- 빅데이타
- 데이터 과학
- Deep learning
- 통계
- 주일설교
- 빅 데이타
- Big Data
- 빅데이터
- 우리들교회
- No SQL
- probability
- node.js
- Statistics
- WebGL
- 인공지능
- R
- 김양재 목사님
- openCV
- nodeJS
- 확률
- MongoDB
- 딥러닝
- 김양재 목사
- c++
- 몽고디비
- Today
- Total
목록데이터 분석 (18)
Scientific Computing & Data Science
Data Science, Big Data, Data Analytics에 대한 설명을 잘 해놓은 (무엇보다도 심플하면서도 간결한 디자인이 맘에 드는) 자료가 있어 소개하고자 한다.
Retrosheet는 메이저리그 야구의 play-by-play Game Logs를 .zip 압축 파일 형태로 제공한다. Game Logs를 분석하기 위해 Retrosheet 웹사이트에서 일일이 .zip 파일들을 다운받아 압축을 풀어 불러올 수 있겠지만 여간 번거로운 것이 아닐 것이다. 이번 포스팅에서는 Retrosheet 웹사이트가 제공하는 Game Logs 파일들을 다운받아 CSV 형식으로 Data Frame에 저장하고 이를 MongoDB에 저장하고 또한 DB로부터 데이터를 불러오는 방법에 대하여 설명하도록 하겠다. 우선 Retrosheet 웹사이트를 방문하면 상단에 Data downloads > Game logs를 클릭한다. Game logs 페이지에 보면 1871년부터 2016년까지의 Game Lo..
Lahman 데이터를 이용한 야구 데이터 분석 Part 3.QUESTIONSQ1. American League의 지명타자 제도 도입으로 양 리그(National League와 American League) 간 득점의 차이가 생겼을까?Q2. MLB 전체 히스토리에서 투수의 완투비율은 어떻게 변화되어 왔는가? 지난 포스팅에 이어 질문을 하고 이에 대해 답하는 형식으로 야구 데이터 분석을 진행해 보기로 한다. Q1. American League의 지명타자 제도 도입으로 양 리그(National League와 American League) 간 득점의 차이가 생겼을까?이 질문에 대답을 하기 위해 American League에 지명타자 제도가 처음으로 도입된 해인 1973년도 이전과 이후의 양 리그 간 득점의 추이..
이전 글(R과 MongoDB 연동하기(rmongodb))에서 R의 MongoDB 관련 패키지인 rmongodb를 이용하여 R과 MongoDB를 연동하는 방법에 대해 소개한 바 있다. 그러나 rmongodb 패키지는 CRAN에서 제거되었으며, 이를 대신하여 mongolite 패키지를 사용할 수 있게 되었다. 이번 글에서는 mongolite 패키지를 이용하여 R과 MongoDB를 연동하여 데이터 도큐먼트 저장, 삭제, 업데이트 등을 하는 방법에 대하여 알아보도록 하겠다. 사용된 데이터는 다음 링크를 클릭하여 다운 받도록 한다: MongoDB 실행하기R의 Working Directory에 MongoDB 데이터를 저장할 폴더를 하나 생성하고 Command Line Tool에서 다음 명령을 통해 MongoDB를 ..
기사원문: http://magazine.hankyung.com/business/apps/news?popup=0&nid=01&c1=1003&nkey=2015073101026000231&mode=sub_view미국의 버락 오바마 대통령은 작년 사생활 보호권 전문가·과학기술자·사업가 등과 빅 데이터가 가져오는 민간 및 공공 영역에서의 사생활 침해 위협을 파악하고 이를 최소화하면서 정보를 자유롭게 공유할 수 있는 방안을 검토하라고 지시했다. 미 대통령 과학기술자문위원회(PCAST)는 기술적인 관점을 중심으로 이를 검토, ‘빅 데이터와 사생활 보호권 : 기술적인 관점(BigData and Privacy : A Technological Perspective)’이라는 보고서를 제출했다. 이 보고서에 담긴 주요 내용을..
이번 글에서는 MongoDB의 응용으로서 통계 분석의 오픈소스 S/W로 널리 알려진 R에서 MongoDB를 연동하는 방법에 대해 소개하고자 한다. R용 MongoDB 패키지 설치 및 불러오기우선 가장 먼저할 일은 R에서 MongoDB를 연동하는 패키지인 rmongodb를 설치하는 것이다:> install.packages("rmongodb") 설치가 완료되면 라이브러리(패키지)를 불러온다:> library(rmongodb) MongoDB 서버 열기R에서 MongoDB를 연결하기 전에 MongoDB 서버를 작동시킨다. 일단은 Command Line Tool(Mac에서는 Terminal, Winodws에서는 Console)을 이용하여 MongoDB 로컬 서버를 열도록 하겠다.$ mongod -dbpath /{..
이번 글에서는 "Data for R in a nutshell"이 제공하는 2006년도 출산 데이터와 다양한 시각화 도구를 이용하여 데이터 분석 및 마이닝을 연습해 보도록 한다."R in a nutshell"의 데이터를 불러오는 방법에 대한 자세한 내용은 패키지와 데이터 기본을 참고하도록 한다. [준비할 사항]데이터의 시각화를 위해 lattice 라이브러리와 nuteshell 라이브러리를 불러온다. lattice 라이브러리는 barchart, histogram, density plot 등 다양한 데이터 시각화 도구를 제공하며, nuteshell 라이브러리는 데이터 분석 연습을 위한 샘플을 제공한다.> library(lattice) > library(nutshell)데이터는 2006년도 출산 샘플 데이터인 ..
'데이터 마이닝'이란 금을 채광(Gold Mining)하는 것처럼, 획득된 데이터로부터 의미있거나 가치있는 정보를 발견하는 일을 의미한다. 이러한 활동을 통해 기업들은 소비자들이 원하는 것이 무엇인지 발견하여 마켓팅으로 활용하거나 새로운 비즈니스의 기회를 모색할 수도 있다. 또한 각종 정부기관들은 재난사고를 미리 예측하여 사고를 예방하거나 여론을 파악하는데 활용할 수도 있다.데이터 마이닝은 데이터로부터 가치를 발견한다는 점에서 단순 데이터 분석과는 차별된다. 단, 데이터 마이닝을 위해서는 획득할 수 있는 데이터의 범주가 다양할 수록 좋다. 왜냐하면 데이터의 범주가 다양할 수록 다양한 의미를 발견할 가능성이 높아지기 때문이다.데이터에 대해 많은 의존을 하는 스포츠 중의 하나인 야구를 예로 들어보자. 우리나..
Written by Geol Choi | May. 1, 2014 데이터소스의 유형에는 다음과 같은 것들이 있다:오픈 데이터텍스트 파일Excel 파일SQL 데이터베이스NoSQL 데이터베이스멀티미디어웹 스크랩 이들에 대해 각각 자세히 알아보도록 하자. 데이터 소스데이터소스란, 데이터를 추출 및 저장과 관련된 모든 기술을 설명하는데 사용되는 용어이다. 가공되지 않은 데이터의 근원지는 관찰 로그(observation logs), 센서, 트랜잭션(transaction), 사용자 행동 등이다. 데이터소스와 데이터세트에 대해 언급할 것인데, 데이터세트란 데이터의 집합체를 의미하며 일반적으로 행과 열을 갖는 테이블형으로 정리된다. [그림 1.] 데이터세트의 예 (출처: http://commons.wikimedia.or..
인터넷 기술의 발달로 데이터가 획득되는 경로는 점점 다양해 지고 있다. 인터넷이 데이터를 전달하는 통로라고 한다면, 실제 데이터를 취득하는 도구는 센서들이다. 센서들에는 카메라를 포함하여, RFID, 온도계, QR 코드, 온도계 등이다.최근 모든 사물이 연결되는 이른 바 사물인터넷(Internet of Things, IoT) 관련 기술이 발달하면서 통신, 보안 기술 뿐만 아니라 데이터를 취득할 수 있는 다양한 센서 및 관련 장비에 대한 관심이 높아지고 있다. 예를 들어, 지능형 피트니스 센터(Fitness Center)이 있다고 가정하자. 이 곳에서 모든 운동기구는 운동하는 사람을 인식(지문이든 홍채인식이든 또는 NFC를 통해서든간에)하여 런닝머쉰을 몇 분간, 얼마의 거리를 뛰었는지, 이를 통해 소모한 ..