일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 빅데이터
- Machine Learning
- 김양재 목사
- 몽고디비
- c++
- probability
- R
- Deep learning
- node.js
- 딥러닝
- openCV
- 빅 데이터
- Big Data
- data science
- 인공지능
- 확률
- 김양재
- WebGL
- MongoDB
- Statistics
- 우리들교회
- 통계
- No SQL
- Artificial Intelligence
- 데이터 과학
- 빅데이타
- 주일설교
- 김양재 목사님
- nodeJS
- 빅 데이타
- Today
- Total
목록Data Science/ Baseball Data Analysis (10)
Scientific Computing & Data Science
Lahman 데이터를 이용한 야구 데이터 분석 Part 4.QUESTIONSQ1. 1980년부터 2016년까지 MLB의 요일별 누적 관중수는 어떻게 될까? 지난 포스팅에 이어 이번 포스팅에서는 1980년부터 2016년까지의 메이저리그 요일별 누적 관중수를 계산하여 그래프로 출력해 보도록 하겠다. 데이터는 Retrosheet의 Game Log 데이터로부터 계산되며, 이 데이터를 MongoDB로 입출력하는 방법에 대하여서는 "온라인 야구 데이터를 MongoDB에 저장하기"를 참고하기 바란다.패키지 및 소스 로딩하기그래프 출력 및 그래프 저장을 위해 plotly와 webshot 패키지를 로딩한다:12345678if (! ("plotly" %in% rownames(installed.packages()))) { ..
by Geol Choi | May 14, 2017 지난 번 포스팅에서 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보았다. 해당 포스팅을 보시고, 동일한 방법으로 KBO 리그 데이터에 대한 웹스크랩핑을 시도해 보았는데 실패했다는 문의를 이메일을 통해 전달받았다. 그래서 직접 시도해 보기로 했다. 대상 웹페이지는 네이버 야구 기록실 페이지이며, 이 중 팀순위 기록 가져오기를 시도해 보았다. 지난 포스팅과 동일한 코드로 시도를 해 보았다 (단, 지난 포스팅의 코드와는 달리 네이버 야구기록 페이지에서는 HTML 주석문 처리를 할 필요가 없어서 주석문 제거를 위한 코드는 생략하였다): R CODE:############################..
by Geol Choi | May 9, 2017 이번 포스팅에서는 R의 rvest 패키지를 이용하여 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보도록 하겠다 - 데이터를 가져오는 방법에 대해서만 다룰 것이며, 데이터 분석에 대한 내용은 아니다.rvest는 R의 웹 스크래핑(Web Scraping)을 위한 패키지로 Tag Selection, CSS Selection 등 다양한 기능이 있지만, 본 포스팅은 rvest 패키지 사용법 자체를 소개하려는 목적은 아니므로, 이를 이용한 다양한 웹 스크래핑 기능을 알고 싶다면 rvest의 CRAN 페이지나 관련 PDF 파일을 참고하길 바란다.그럼 이제 본격적으로 진행해 보도록 하겠다. 웹페이지 가져오기..
앞선 포스팅(온라인 야구 데이터를 MongoDB에 저장하기)에서 Retrosheet의 Game Log 데이터를 불러오고 이를 MongoDB에 저장하는 방법에 대하여 알아보았다.이번 포스팅에서는 저장된 Game Log 데이터로부터 메이저리그의 역대 관중수가 어떻게 변화되어 왔는지 알아보기로 한다. 1. MongoDB 서버 실행이 포스팅은 Retrosheet의 Game Log 데이터가 MongoDB에 저장되어 있음을 가정하므로, 저장된 데이터를 가져오려면 MongoDB 서버가 실행되고 있다는 것 또한 가정한다.만약 MongoDB 서버 실행 방법을 모른다면 이 링크를 참고하기 바란다. 2. 관중수 계산하기Plotting을 위한 라이브러리 및 DB 관련 소스 로드하기년도와 각 연도별 관중수를 Plotting하기..
Retrosheet는 메이저리그 야구의 play-by-play Game Logs를 .zip 압축 파일 형태로 제공한다. Game Logs를 분석하기 위해 Retrosheet 웹사이트에서 일일이 .zip 파일들을 다운받아 압축을 풀어 불러올 수 있겠지만 여간 번거로운 것이 아닐 것이다. 이번 포스팅에서는 Retrosheet 웹사이트가 제공하는 Game Logs 파일들을 다운받아 CSV 형식으로 Data Frame에 저장하고 이를 MongoDB에 저장하고 또한 DB로부터 데이터를 불러오는 방법에 대하여 설명하도록 하겠다. 우선 Retrosheet 웹사이트를 방문하면 상단에 Data downloads > Game logs를 클릭한다. Game logs 페이지에 보면 1871년부터 2016년까지의 Game Lo..
Lahman 데이터를 이용한 야구 데이터 분석 Part 3.QUESTIONSQ1. American League의 지명타자 제도 도입으로 양 리그(National League와 American League) 간 득점의 차이가 생겼을까?Q2. MLB 전체 히스토리에서 투수의 완투비율은 어떻게 변화되어 왔는가? 지난 포스팅에 이어 질문을 하고 이에 대해 답하는 형식으로 야구 데이터 분석을 진행해 보기로 한다. Q1. American League의 지명타자 제도 도입으로 양 리그(National League와 American League) 간 득점의 차이가 생겼을까?이 질문에 대답을 하기 위해 American League에 지명타자 제도가 처음으로 도입된 해인 1973년도 이전과 이후의 양 리그 간 득점의 추이..
Lahman 데이터를 이용한 야구 데이터 분석 Part 2.QUESTIONSQ1. 각 10년 단위로 경기 당 평균 홈런 수는 몇 개인가?Q2. 각 10년 단위로 보았을 때 삼진 수와 홈런 수는 상관관계가 있을까? 본 포스팅에서는 Lahman 데이터 분석을 위한 준비를 했던 지난 글에 이어 본격적으로 데이터 분석을 하는 해보도록 한다.CRC Press의 "Analyzing Baseball Data with R"이 제시하는 질문에 답하는 유형으로 진행할 것이다.한 가지 첨언하면, 훌륭한 데이터 과학자의 자질 중 하나는 끊임없이 질문하고 그 질문에 데이터로 답을 할 수 있는 것임을 명심하자. Q1. 각 10년 단위로 경기 당 평균 홈런 수는 몇 개인가?이 질문에 답을 하려면 "Teams" 데이터를 불러온다.r..
Lahman 데이터를 이용한 야구 데이터 분석 Part 1. - 데이터 준비CONTENTS1. MLB 데이터 준비2. R의 Working Directory 구조3. MongoDB에 데이터 삽입 (Optional)4. MongoDB로부터 데이터 불러오기5. 맺음말 본 포스팅에서는 Database Journalist인 Sean Lahman의 최신 데이터를 이용하여 MLB에 대한 분석을 시도해 보고자 한다. 처음에는 KBO 데이터를 분석해보고자 하였지만, 데이터를 얻기가 불편하고 초기 준비 단계가 많아 데이터 획득이 훨씬 수월하고 방대한 데이터를 보유하고 참고자료가 풍성한 MLB부터 시도해 보기로 하였다. 차후에는 KBO 데이터를 획득부터 분석까지 시도해 보기록 하겠다. 분석 환경은 가장 인기있는 통계처리 언..
보호되어 있는 글입니다.
통계와 야구는 매우 밀접한 관계를 가지고 있지만, 단순히 안타수를 타수로 나누어 타율을 구하는 것 외에 통계는 더 많은 의미를 가지고 있다. 야구의 통계 분석 도구인 Sabermetric 역시 탸율보다 더 많은 의미를 담고 있습니다. 많은 야구팬들 또한 통계에 미친(?) 사람들(역으로, 통계에 미친 사람이 야구 팬일 확률도 높음)이며, 야구 데이터의 심오한 통계 분석을 해오고 있는데, 대개 그 도구는 R입니다. 야구 분석 웹사이트의 Dave Allen은, 그의 동료 Jeremy Greenhouse처럼 자주 R을 이용하여 PitchFX 데이터를 시각화합니다 (가령, 최적의 스윙률 분석). Ryan Elmore는 ESPN의 스포츠 분석팀에 R을 이용한 상세 데이터 분석에 영감을 주었습니다. Hardball ..