일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 확률
- openCV
- Statistics
- R
- Deep learning
- 통계
- Big Data
- c++
- 빅데이터
- 빅 데이터
- node.js
- data science
- 빅 데이타
- 주일설교
- 딥러닝
- No SQL
- probability
- 김양재
- 우리들교회
- nodeJS
- 데이터 과학
- 김양재 목사님
- 김양재 목사
- Machine Learning
- MongoDB
- WebGL
- 몽고디비
- 인공지능
- 빅데이타
- Artificial Intelligence
- Today
- Total
목록데이터분석 (8)
Scientific Computing & Data Science
Data Science, Big Data, Data Analytics에 대한 설명을 잘 해놓은 (무엇보다도 심플하면서도 간결한 디자인이 맘에 드는) 자료가 있어 소개하고자 한다.
Lahman 데이터를 이용한 야구 데이터 분석 Part 2.QUESTIONSQ1. 각 10년 단위로 경기 당 평균 홈런 수는 몇 개인가?Q2. 각 10년 단위로 보았을 때 삼진 수와 홈런 수는 상관관계가 있을까? 본 포스팅에서는 Lahman 데이터 분석을 위한 준비를 했던 지난 글에 이어 본격적으로 데이터 분석을 하는 해보도록 한다.CRC Press의 "Analyzing Baseball Data with R"이 제시하는 질문에 답하는 유형으로 진행할 것이다.한 가지 첨언하면, 훌륭한 데이터 과학자의 자질 중 하나는 끊임없이 질문하고 그 질문에 데이터로 답을 할 수 있는 것임을 명심하자. Q1. 각 10년 단위로 경기 당 평균 홈런 수는 몇 개인가?이 질문에 답을 하려면 "Teams" 데이터를 불러온다.r..
이번 글에서는 "Data for R in a nutshell"이 제공하는 2006년도 출산 데이터와 다양한 시각화 도구를 이용하여 데이터 분석 및 마이닝을 연습해 보도록 한다."R in a nutshell"의 데이터를 불러오는 방법에 대한 자세한 내용은 패키지와 데이터 기본을 참고하도록 한다. [준비할 사항]데이터의 시각화를 위해 lattice 라이브러리와 nuteshell 라이브러리를 불러온다. lattice 라이브러리는 barchart, histogram, density plot 등 다양한 데이터 시각화 도구를 제공하며, nuteshell 라이브러리는 데이터 분석 연습을 위한 샘플을 제공한다.> library(lattice) > library(nutshell)데이터는 2006년도 출산 샘플 데이터인 ..
'데이터 마이닝'이란 금을 채광(Gold Mining)하는 것처럼, 획득된 데이터로부터 의미있거나 가치있는 정보를 발견하는 일을 의미한다. 이러한 활동을 통해 기업들은 소비자들이 원하는 것이 무엇인지 발견하여 마켓팅으로 활용하거나 새로운 비즈니스의 기회를 모색할 수도 있다. 또한 각종 정부기관들은 재난사고를 미리 예측하여 사고를 예방하거나 여론을 파악하는데 활용할 수도 있다.데이터 마이닝은 데이터로부터 가치를 발견한다는 점에서 단순 데이터 분석과는 차별된다. 단, 데이터 마이닝을 위해서는 획득할 수 있는 데이터의 범주가 다양할 수록 좋다. 왜냐하면 데이터의 범주가 다양할 수록 다양한 의미를 발견할 가능성이 높아지기 때문이다.데이터에 대해 많은 의존을 하는 스포츠 중의 하나인 야구를 예로 들어보자. 우리나..
인터넷 기술의 발달로 데이터가 획득되는 경로는 점점 다양해 지고 있다. 인터넷이 데이터를 전달하는 통로라고 한다면, 실제 데이터를 취득하는 도구는 센서들이다. 센서들에는 카메라를 포함하여, RFID, 온도계, QR 코드, 온도계 등이다.최근 모든 사물이 연결되는 이른 바 사물인터넷(Internet of Things, IoT) 관련 기술이 발달하면서 통신, 보안 기술 뿐만 아니라 데이터를 취득할 수 있는 다양한 센서 및 관련 장비에 대한 관심이 높아지고 있다. 예를 들어, 지능형 피트니스 센터(Fitness Center)이 있다고 가정하자. 이 곳에서 모든 운동기구는 운동하는 사람을 인식(지문이든 홍채인식이든 또는 NFC를 통해서든간에)하여 런닝머쉰을 몇 분간, 얼마의 거리를 뛰었는지, 이를 통해 소모한 ..
흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다. 빅 데이터의 핵심 특징은 다음과 같다:크기 (Volume): 데이터의 방대한 양.다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.속도 (Velocity): 데이터는 신속하게 분석되어야 함.위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity..
"데이터 분석"이란 가공되지 않은 데이터를 정렬하고 조직화하여 과거를 설명하고 미래를 예측할 수 있는 방법을 세우는 과정이다. 데이터 분석은 단순한 숫자에 관한 것이 아니며, 질문을 세우거나 질문을 하는 것, 설명 방식에 대한 개발을 하는 것, 가설을 검증하는 것에 관한 것이다. 데이터 분석은 다중의 분야를 융합하는 것으로써, 해당 분야는 컴퓨터 과학(Computer Science), 인공 지능(Artificial Intelligence), 기계 학습(Machine Learning), 통계와 수학(Statistics & Mathematics), 지식 도메인(Knowledge Domain)이다.컴퓨터 과학컴퓨터 과학은 데이터 분석과 분석된 데이터의 설명을 위한 가시화에 관련된 도구를 제공한다. 데이터 분석..
원문 : http://www.ciokorea.com/news/20271애널리틱스와 빅 데이터는 다양한 산업 영역에서 새로운 가치를 창출할 수 있는 도구다. 그러나 그 가운데서도 특히 두각을 나타내는 분야가 있다. 바로 스포츠 산업이다. 득점 기록에서 계약 서명, 부상 예방까지, 애널리틱스는 코치와 선수들에서 팀 사무실 직원들까지, 스포츠 산업의 모든 영역에 가치를 전달할 수 있다. 최근 보스톤에서는 스포츠 코치 및 선수진과 여타 시장의 선구적 전문가들이 한데 모여 스포츠 산업에서 애널리틱스 및 빅 데이터가 수행할 수 있는 역할에 관해 논의하는 2014 MIT 슬로건 스포츠 애널리틱스 컨퍼런스(MIT Sloan Sports Analytics Conference)가 진행됐다. 여기 컨퍼런스 현장에서 소개된,..