'Data analysis' 태그의 글 목록

04-06 15:18

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Data analysis (18)

Scientific Computing & Data Science

[Data Science / Baseball] rvest 패키지를 이용하여 KBO 야구 데이터 가져오기

by Geol Choi | May 14, 2017 지난 번 포스팅에서 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보았다. 해당 포스팅을 보시고, 동일한 방법으로 KBO 리그 데이터에 대한 웹스크랩핑을 시도해 보았는데 실패했다는 문의를 이메일을 통해 전달받았다. 그래서 직접 시도해 보기로 했다. 대상 웹페이지는 네이버 야구 기록실 페이지이며, 이 중 팀순위 기록 가져오기를 시도해 보았다. 지난 포스팅과 동일한 코드로 시도를 해 보았다 (단, 지난 포스팅의 코드와는 달리 네이버 야구기록 페이지에서는 HTML 주석문 처리를 할 필요가 없어서 주석문 제거를 위한 코드는 생략하였다): R CODE:############################..

Data Science/ Baseball Data Analysis 2017. 5. 14. 21:10

[Data Science / Baseball] rvest 패키지를 이용하여 웹페이지로부터 야구 데이터 가져오기

by Geol Choi | May 9, 2017 이번 포스팅에서는 R의 rvest 패키지를 이용하여 유명 야구 데이터 사이트인 baseball-reference.com으로부터 데이터를 가져오는 방법에 대해 알아보도록 하겠다 - 데이터를 가져오는 방법에 대해서만 다룰 것이며, 데이터 분석에 대한 내용은 아니다.rvest는 R의 웹 스크래핑(Web Scraping)을 위한 패키지로 Tag Selection, CSS Selection 등 다양한 기능이 있지만, 본 포스팅은 rvest 패키지 사용법 자체를 소개하려는 목적은 아니므로, 이를 이용한 다양한 웹 스크래핑 기능을 알고 싶다면 rvest의 CRAN 페이지나 관련 PDF 파일을 참고하길 바란다.그럼 이제 본격적으로 진행해 보도록 하겠다. 웹페이지 가져오기..

Data Science/ Baseball Data Analysis 2017. 5. 9. 12:55

[Data Science / Baseball] Lahman 데이터를 이용한 야구 데이터 분석 Part 2.

Lahman 데이터를 이용한 야구 데이터 분석 Part 2.QUESTIONSQ1. 각 10년 단위로 경기 당 평균 홈런 수는 몇 개인가?Q2. 각 10년 단위로 보았을 때 삼진 수와 홈런 수는 상관관계가 있을까? 본 포스팅에서는 Lahman 데이터 분석을 위한 준비를 했던 지난 글에 이어 본격적으로 데이터 분석을 하는 해보도록 한다.CRC Press의 "Analyzing Baseball Data with R"이 제시하는 질문에 답하는 유형으로 진행할 것이다.한 가지 첨언하면, 훌륭한 데이터 과학자의 자질 중 하나는 끊임없이 질문하고 그 질문에 데이터로 답을 할 수 있는 것임을 명심하자. Q1. 각 10년 단위로 경기 당 평균 홈런 수는 몇 개인가?이 질문에 답을 하려면 "Teams" 데이터를 불러온다.r..

Data Science/ Baseball Data Analysis 2017. 3. 4. 21:38

[Data Science / Baseball] Lahman 데이터를 이용한 야구 데이터 분석 Part 1. - 데이터 준비

Lahman 데이터를 이용한 야구 데이터 분석 Part 1. - 데이터 준비CONTENTS1. MLB 데이터 준비2. R의 Working Directory 구조3. MongoDB에 데이터 삽입 (Optional)4. MongoDB로부터 데이터 불러오기5. 맺음말 본 포스팅에서는 Database Journalist인 Sean Lahman의 최신 데이터를 이용하여 MLB에 대한 분석을 시도해 보고자 한다. 처음에는 KBO 데이터를 분석해보고자 하였지만, 데이터를 얻기가 불편하고 초기 준비 단계가 많아 데이터 획득이 훨씬 수월하고 방대한 데이터를 보유하고 참고자료가 풍성한 MLB부터 시도해 보기로 하였다. 차후에는 KBO 데이터를 획득부터 분석까지 시도해 보기록 하겠다. 분석 환경은 가장 인기있는 통계처리 언..

Data Science/ Baseball Data Analysis 2017. 3. 2. 22:32

[Data Science / MongoDB] R과 MongoDB 연동하기 (mongolite)

이전 글(R과 MongoDB 연동하기(rmongodb))에서 R의 MongoDB 관련 패키지인 rmongodb를 이용하여 R과 MongoDB를 연동하는 방법에 대해 소개한 바 있다. 그러나 rmongodb 패키지는 CRAN에서 제거되었으며, 이를 대신하여 mongolite 패키지를 사용할 수 있게 되었다. 이번 글에서는 mongolite 패키지를 이용하여 R과 MongoDB를 연동하여 데이터 도큐먼트 저장, 삭제, 업데이트 등을 하는 방법에 대하여 알아보도록 하겠다. 사용된 데이터는 다음 링크를 클릭하여 다운 받도록 한다: MongoDB 실행하기R의 Working Directory에 MongoDB 데이터를 저장할 폴더를 하나 생성하고 Command Line Tool에서 다음 명령을 통해 MongoDB를 ..

Data Science/MongoDB 2017. 2. 17. 00:35

[Data Science / Articles] 빅 데이터 공포…‘사생활은 없다’

기사원문: http://magazine.hankyung.com/business/apps/news?popup=0&nid=01&c1=1003&nkey=2015073101026000231&mode=sub_view미국의 버락 오바마 대통령은 작년 사생활 보호권 전문가·과학기술자·사업가 등과 빅 데이터가 가져오는 민간 및 공공 영역에서의 사생활 침해 위협을 파악하고 이를 최소화하면서 정보를 자유롭게 공유할 수 있는 방안을 검토하라고 지시했다. 미 대통령 과학기술자문위원회(PCAST)는 기술적인 관점을 중심으로 이를 검토, ‘빅 데이터와 사생활 보호권 : 기술적인 관점(BigData and Privacy : A Technological Perspective)’이라는 보고서를 제출했다. 이 보고서에 담긴 주요 내용을..

Data Science/Articles 2015. 8. 3. 14:08

[Data Science] Data Science Process

Written by CINEMA4D데이터 과학에 있어 데이터를 처리하는 순서는 다음 그림과 같다: [실세계]각종 포털사이트, 온/오프라인 쇼핑몰, Facebook, Google+, Twitter와 같은 SNS 등 데이터를 수집할 수 있는 모든 데이터 원천을 의미한다. [미가공 데이터]실세계로부터 얻어진 데이터는 가공되지 않은 형태의 "있는 그대로의 데이터(Raw Data)"로 존재한다. 이것은 로그 파일, 이메일, 동영상, 음성 등 다양한 비정형 데이터로 존재할 가능성이 높으며 정형화 된 형태일지라도 데이터가 유실될 경우도 많다. [데이터 처리]미가공 데이터는 R, Python, Ruby 등과 같은 데이터 처리 도구를 통하여 처리되고 SQL, NoSQL 등과 같은 데이터 쿼리 언어를 통해 데이터를 저장한..

Data Science/Posts 2015. 1. 18. 17:02

[Data Science / MongoDB] R과 MongoDB 연동하기 (rmongodb)

이번 글에서는 MongoDB의 응용으로서 통계 분석의 오픈소스 S/W로 널리 알려진 R에서 MongoDB를 연동하는 방법에 대해 소개하고자 한다. R용 MongoDB 패키지 설치 및 불러오기우선 가장 먼저할 일은 R에서 MongoDB를 연동하는 패키지인 rmongodb를 설치하는 것이다:> install.packages("rmongodb") 설치가 완료되면 라이브러리(패키지)를 불러온다:> library(rmongodb) MongoDB 서버 열기R에서 MongoDB를 연결하기 전에 MongoDB 서버를 작동시킨다. 일단은 Command Line Tool(Mac에서는 Terminal, Winodws에서는 Console)을 이용하여 MongoDB 로컬 서버를 열도록 하겠다.$ mongod -dbpath /{..

Data Science/MongoDB 2014. 6. 3. 16:22

[Data Mining with R Programming] 2006 Birth Data 분석

이번 글에서는 "Data for R in a nutshell"이 제공하는 2006년도 출산 데이터와 다양한 시각화 도구를 이용하여 데이터 분석 및 마이닝을 연습해 보도록 한다."R in a nutshell"의 데이터를 불러오는 방법에 대한 자세한 내용은 패키지와 데이터 기본을 참고하도록 한다. [준비할 사항]데이터의 시각화를 위해 lattice 라이브러리와 nuteshell 라이브러리를 불러온다. lattice 라이브러리는 barchart, histogram, density plot 등 다양한 데이터 시각화 도구를 제공하며, nuteshell 라이브러리는 데이터 분석 연습을 위한 샘플을 제공한다.> library(lattice) > library(nutshell)데이터는 2006년도 출산 샘플 데이터인 ..

Data Science/Data Mining with R Programming 2014. 5. 11. 19:54

[Data Mining with R Programming] 개요

'데이터 마이닝'이란 금을 채광(Gold Mining)하는 것처럼, 획득된 데이터로부터 의미있거나 가치있는 정보를 발견하는 일을 의미한다. 이러한 활동을 통해 기업들은 소비자들이 원하는 것이 무엇인지 발견하여 마켓팅으로 활용하거나 새로운 비즈니스의 기회를 모색할 수도 있다. 또한 각종 정부기관들은 재난사고를 미리 예측하여 사고를 예방하거나 여론을 파악하는데 활용할 수도 있다.데이터 마이닝은 데이터로부터 가치를 발견한다는 점에서 단순 데이터 분석과는 차별된다. 단, 데이터 마이닝을 위해서는 획득할 수 있는 데이터의 범주가 다양할 수록 좋다. 왜냐하면 데이터의 범주가 다양할 수록 다양한 의미를 발견할 가능성이 높아지기 때문이다.데이터에 대해 많은 의존을 하는 스포츠 중의 하나인 야구를 예로 들어보자. 우리나..

Data Science/Data Mining with R Programming 2014. 5. 11. 16:14

Prev 1 2 Next

목록Data analysis (18)

Scientific Computing & Data Science

티스토리툴바