일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 빅 데이타
- Deep learning
- Statistics
- 몽고디비
- 데이터 과학
- R
- probability
- 김양재
- WebGL
- Artificial Intelligence
- 빅데이터
- Big Data
- 확률
- 우리들교회
- Machine Learning
- No SQL
- 빅 데이터
- node.js
- MongoDB
- 통계
- 김양재 목사님
- 주일설교
- 빅데이타
- openCV
- c++
- 딥러닝
- 인공지능
- nodeJS
- 김양재 목사
- data science
- Today
- Total
목록Data Science (257)
Scientific Computing & Data Science
[Definition][\(\chi\)-제곱 분포] \( f(x;k) = \begin{cases} \displaystyle{\frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}} {2^{\frac{k}{2}}\Gamma(\frac{k}{2})} }, \ \mathrm{if} \ x > 0 \\ 0, \ \mathrm{if} \ x \le 0 \end{cases} \) \(\Gamma(\frac{k}{2})\): 파라미터 k에 대한 Closed Form을 갖는 감마 함수x: 랜덤 변수,k: 정수 파라미터 [누적 \(\chi\)-제곱 분포] \( F(x;k) = \displaystyle{ \frac{ \Gamma \begin{pmatrix} \displaystyle{\frac{x}{2}, ..
Written by Geol Choi | Jul. 29, 2017 데이터 과학 작업을 하다보면 동료들과 협업할 일이 많습니다. 이 경우, 소스 파일에 주석과 사용법을 잘 작성하여 소스 파일을 직접 배포할 수도 있지만, 소스 유지보수/관리 차원 또는 온라인 배포를 위하여 R 패키지를 작성하여 배포하는 것이 바람직합니다.이번 포스팅에서는 R 패키지를 작성하고 배포하는 방법에 대해 알아보고자 합니다.1. 필요한 패키지 불러오기R 패키지 작성을 위하여 필요한 패키지들인 devtools와 roxygen2을 불러옵니다. 만약 설치되어 있지 않다면 설치합니다: 12345if (! ("devtools" %in% rownames(installed.packages()))) { install.packages("devtool..
Data Science, Big Data, Data Analytics에 대한 설명을 잘 해놓은 (무엇보다도 심플하면서도 간결한 디자인이 맘에 드는) 자료가 있어 소개하고자 한다.
기사원문: http://view.asiae.co.kr/news/view.htm?idxno=2017070214344936004 빅데이터로 배달업종 이용분석 요일 ·연령 등 고객특성 파악해 맞춤형 영업전략 수립 가능 SKT '빅데이터 허브' 개방 4년째 범죄예방 ·교통분석 등 시너지 빅데이터는 지금 조류독감(AI)과의 '보이지 않는 전쟁' 중이다. 기업이 모은 빅데이터를 민간과 공유하면서 범죄예방, 교통량 분석, 상권분석 등 다양한 시너지를 만들어내고 있다. 2일 SK텔레콤은 "국내 첫 민간 빅데이터 개방 사례인 '빅데이터 허브'의 데이터 이용 신청 건수가 6월 말 기준 1만 1000건을 돌파했다고 밝혔다. '빅데이터 허브'는 지난 2013년 10월 첫 개방 이후 4년째를 맞고 있으며, 공개 데이터는 최초 ..
기사원문: http://www.fnnews.com/news/201707021729567142 SKT, 가입자 이동 데이터에 탑승자 결제정보 활용한 택시 서비스 구상중이지만 개인정보보호법 등에 막혀 당장 사업화하지는 못해 서민들의 체감경기는 여전히 냉골이어서 택시기사들은 손님맞기가 쉽지 않다. 그러나 통신회사의 가입자 이동 데이터와 택시 탑승자들의 결제정보를 결합한 빅데이터를 활용하면 손님이 끊기지 않는 노선도를 그릴 수 있다. 지난해 하루 평균 3360개의 중소 자영업체가 문을 열었지만 경영난을 이기지 못해 문을 닫는 자영업자도 하루 평균 2491개에 달한다. 그러나 빅데이터를 활용해 상권을 분석하고 주요 소비패턴을 분석하면 불황의 파고를 넘을 수 있는 사업 아이템과 상점 위치를 족집게처럼 찾아낼 수 있..
Lahman 데이터를 이용한 야구 데이터 분석 Part 4.QUESTIONSQ1. 1980년부터 2016년까지 MLB의 요일별 누적 관중수는 어떻게 될까? 지난 포스팅에 이어 이번 포스팅에서는 1980년부터 2016년까지의 메이저리그 요일별 누적 관중수를 계산하여 그래프로 출력해 보도록 하겠다. 데이터는 Retrosheet의 Game Log 데이터로부터 계산되며, 이 데이터를 MongoDB로 입출력하는 방법에 대하여서는 "온라인 야구 데이터를 MongoDB에 저장하기"를 참고하기 바란다.패키지 및 소스 로딩하기그래프 출력 및 그래프 저장을 위해 plotly와 webshot 패키지를 로딩한다:12345678if (! ("plotly" %in% rownames(installed.packages()))) { ..
by Geol Choi | May 14, 2017 지난 번 포스팅에서 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보았다. 해당 포스팅을 보시고, 동일한 방법으로 KBO 리그 데이터에 대한 웹스크랩핑을 시도해 보았는데 실패했다는 문의를 이메일을 통해 전달받았다. 그래서 직접 시도해 보기로 했다. 대상 웹페이지는 네이버 야구 기록실 페이지이며, 이 중 팀순위 기록 가져오기를 시도해 보았다. 지난 포스팅과 동일한 코드로 시도를 해 보았다 (단, 지난 포스팅의 코드와는 달리 네이버 야구기록 페이지에서는 HTML 주석문 처리를 할 필요가 없어서 주석문 제거를 위한 코드는 생략하였다): R CODE:############################..
by Geol Choi | May 9, 2017 이번 포스팅에서는 R의 rvest 패키지를 이용하여 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보도록 하겠다 - 데이터를 가져오는 방법에 대해서만 다룰 것이며, 데이터 분석에 대한 내용은 아니다.rvest는 R의 웹 스크래핑(Web Scraping)을 위한 패키지로 Tag Selection, CSS Selection 등 다양한 기능이 있지만, 본 포스팅은 rvest 패키지 사용법 자체를 소개하려는 목적은 아니므로, 이를 이용한 다양한 웹 스크래핑 기능을 알고 싶다면 rvest의 CRAN 페이지나 관련 PDF 파일을 참고하길 바란다.그럼 이제 본격적으로 진행해 보도록 하겠다. 웹페이지 가져오기..
앞선 포스팅(온라인 야구 데이터를 MongoDB에 저장하기)에서 Retrosheet의 Game Log 데이터를 불러오고 이를 MongoDB에 저장하는 방법에 대하여 알아보았다.이번 포스팅에서는 저장된 Game Log 데이터로부터 메이저리그의 역대 관중수가 어떻게 변화되어 왔는지 알아보기로 한다. 1. MongoDB 서버 실행이 포스팅은 Retrosheet의 Game Log 데이터가 MongoDB에 저장되어 있음을 가정하므로, 저장된 데이터를 가져오려면 MongoDB 서버가 실행되고 있다는 것 또한 가정한다.만약 MongoDB 서버 실행 방법을 모른다면 이 링크를 참고하기 바란다. 2. 관중수 계산하기Plotting을 위한 라이브러리 및 DB 관련 소스 로드하기년도와 각 연도별 관중수를 Plotting하기..
Retrosheet는 메이저리그 야구의 play-by-play Game Logs를 .zip 압축 파일 형태로 제공한다. Game Logs를 분석하기 위해 Retrosheet 웹사이트에서 일일이 .zip 파일들을 다운받아 압축을 풀어 불러올 수 있겠지만 여간 번거로운 것이 아닐 것이다. 이번 포스팅에서는 Retrosheet 웹사이트가 제공하는 Game Logs 파일들을 다운받아 CSV 형식으로 Data Frame에 저장하고 이를 MongoDB에 저장하고 또한 DB로부터 데이터를 불러오는 방법에 대하여 설명하도록 하겠다. 우선 Retrosheet 웹사이트를 방문하면 상단에 Data downloads > Game logs를 클릭한다. Game logs 페이지에 보면 1871년부터 2016년까지의 Game Lo..