일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 확률
- 통계
- Artificial Intelligence
- No SQL
- MongoDB
- 몽고디비
- 김양재 목사
- probability
- 김양재 목사님
- 빅데이터
- Machine Learning
- Deep learning
- data science
- node.js
- openCV
- Statistics
- 빅데이타
- nodeJS
- 빅 데이타
- 인공지능
- Big Data
- WebGL
- 딥러닝
- R
- c++
- 김양재
- 우리들교회
- 주일설교
- 빅 데이터
- 데이터 과학
- Today
- Total
목록MLB (6)
Scientific Computing & Data Science
by Geol Choi | May 9, 2017 이번 포스팅에서는 R의 rvest 패키지를 이용하여 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보도록 하겠다 - 데이터를 가져오는 방법에 대해서만 다룰 것이며, 데이터 분석에 대한 내용은 아니다.rvest는 R의 웹 스크래핑(Web Scraping)을 위한 패키지로 Tag Selection, CSS Selection 등 다양한 기능이 있지만, 본 포스팅은 rvest 패키지 사용법 자체를 소개하려는 목적은 아니므로, 이를 이용한 다양한 웹 스크래핑 기능을 알고 싶다면 rvest의 CRAN 페이지나 관련 PDF 파일을 참고하길 바란다.그럼 이제 본격적으로 진행해 보도록 하겠다. 웹페이지 가져오기..
앞선 포스팅(온라인 야구 데이터를 MongoDB에 저장하기)에서 Retrosheet의 Game Log 데이터를 불러오고 이를 MongoDB에 저장하는 방법에 대하여 알아보았다.이번 포스팅에서는 저장된 Game Log 데이터로부터 메이저리그의 역대 관중수가 어떻게 변화되어 왔는지 알아보기로 한다. 1. MongoDB 서버 실행이 포스팅은 Retrosheet의 Game Log 데이터가 MongoDB에 저장되어 있음을 가정하므로, 저장된 데이터를 가져오려면 MongoDB 서버가 실행되고 있다는 것 또한 가정한다.만약 MongoDB 서버 실행 방법을 모른다면 이 링크를 참고하기 바란다. 2. 관중수 계산하기Plotting을 위한 라이브러리 및 DB 관련 소스 로드하기년도와 각 연도별 관중수를 Plotting하기..
Retrosheet는 메이저리그 야구의 play-by-play Game Logs를 .zip 압축 파일 형태로 제공한다. Game Logs를 분석하기 위해 Retrosheet 웹사이트에서 일일이 .zip 파일들을 다운받아 압축을 풀어 불러올 수 있겠지만 여간 번거로운 것이 아닐 것이다. 이번 포스팅에서는 Retrosheet 웹사이트가 제공하는 Game Logs 파일들을 다운받아 CSV 형식으로 Data Frame에 저장하고 이를 MongoDB에 저장하고 또한 DB로부터 데이터를 불러오는 방법에 대하여 설명하도록 하겠다. 우선 Retrosheet 웹사이트를 방문하면 상단에 Data downloads > Game logs를 클릭한다. Game logs 페이지에 보면 1871년부터 2016년까지의 Game Lo..
Lahman 데이터를 이용한 야구 데이터 분석 Part 3.QUESTIONSQ1. American League의 지명타자 제도 도입으로 양 리그(National League와 American League) 간 득점의 차이가 생겼을까?Q2. MLB 전체 히스토리에서 투수의 완투비율은 어떻게 변화되어 왔는가? 지난 포스팅에 이어 질문을 하고 이에 대해 답하는 형식으로 야구 데이터 분석을 진행해 보기로 한다. Q1. American League의 지명타자 제도 도입으로 양 리그(National League와 American League) 간 득점의 차이가 생겼을까?이 질문에 대답을 하기 위해 American League에 지명타자 제도가 처음으로 도입된 해인 1973년도 이전과 이후의 양 리그 간 득점의 추이..
Lahman 데이터를 이용한 야구 데이터 분석 Part 1. - 데이터 준비CONTENTS1. MLB 데이터 준비2. R의 Working Directory 구조3. MongoDB에 데이터 삽입 (Optional)4. MongoDB로부터 데이터 불러오기5. 맺음말 본 포스팅에서는 Database Journalist인 Sean Lahman의 최신 데이터를 이용하여 MLB에 대한 분석을 시도해 보고자 한다. 처음에는 KBO 데이터를 분석해보고자 하였지만, 데이터를 얻기가 불편하고 초기 준비 단계가 많아 데이터 획득이 훨씬 수월하고 방대한 데이터를 보유하고 참고자료가 풍성한 MLB부터 시도해 보기로 하였다. 차후에는 KBO 데이터를 획득부터 분석까지 시도해 보기록 하겠다. 분석 환경은 가장 인기있는 통계처리 언..
'데이터 마이닝'이란 금을 채광(Gold Mining)하는 것처럼, 획득된 데이터로부터 의미있거나 가치있는 정보를 발견하는 일을 의미한다. 이러한 활동을 통해 기업들은 소비자들이 원하는 것이 무엇인지 발견하여 마켓팅으로 활용하거나 새로운 비즈니스의 기회를 모색할 수도 있다. 또한 각종 정부기관들은 재난사고를 미리 예측하여 사고를 예방하거나 여론을 파악하는데 활용할 수도 있다.데이터 마이닝은 데이터로부터 가치를 발견한다는 점에서 단순 데이터 분석과는 차별된다. 단, 데이터 마이닝을 위해서는 획득할 수 있는 데이터의 범주가 다양할 수록 좋다. 왜냐하면 데이터의 범주가 다양할 수록 다양한 의미를 발견할 가능성이 높아지기 때문이다.데이터에 대해 많은 의존을 하는 스포츠 중의 하나인 야구를 예로 들어보자. 우리나..