일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 확률
- 빅데이터
- 몽고디비
- 주일설교
- Deep learning
- c++
- 통계
- 김양재 목사님
- 데이터 과학
- R
- 김양재 목사
- Machine Learning
- Artificial Intelligence
- No SQL
- MongoDB
- 인공지능
- 김양재
- probability
- Statistics
- openCV
- WebGL
- data science
- 딥러닝
- node.js
- nodeJS
- 빅 데이터
- 빅데이타
- 우리들교회
- Big Data
- 빅 데이타
- Today
- Total
목록빅 데이타 (84)
Scientific Computing & Data Science
이번 글에서는 "Data for R in a nutshell"이 제공하는 2006년도 출산 데이터와 다양한 시각화 도구를 이용하여 데이터 분석 및 마이닝을 연습해 보도록 한다."R in a nutshell"의 데이터를 불러오는 방법에 대한 자세한 내용은 패키지와 데이터 기본을 참고하도록 한다. [준비할 사항]데이터의 시각화를 위해 lattice 라이브러리와 nuteshell 라이브러리를 불러온다. lattice 라이브러리는 barchart, histogram, density plot 등 다양한 데이터 시각화 도구를 제공하며, nuteshell 라이브러리는 데이터 분석 연습을 위한 샘플을 제공한다.> library(lattice) > library(nutshell)데이터는 2006년도 출산 샘플 데이터인 ..
'데이터 마이닝'이란 금을 채광(Gold Mining)하는 것처럼, 획득된 데이터로부터 의미있거나 가치있는 정보를 발견하는 일을 의미한다. 이러한 활동을 통해 기업들은 소비자들이 원하는 것이 무엇인지 발견하여 마켓팅으로 활용하거나 새로운 비즈니스의 기회를 모색할 수도 있다. 또한 각종 정부기관들은 재난사고를 미리 예측하여 사고를 예방하거나 여론을 파악하는데 활용할 수도 있다.데이터 마이닝은 데이터로부터 가치를 발견한다는 점에서 단순 데이터 분석과는 차별된다. 단, 데이터 마이닝을 위해서는 획득할 수 있는 데이터의 범주가 다양할 수록 좋다. 왜냐하면 데이터의 범주가 다양할 수록 다양한 의미를 발견할 가능성이 높아지기 때문이다.데이터에 대해 많은 의존을 하는 스포츠 중의 하나인 야구를 예로 들어보자. 우리나..
Written by Geol Choi | May. 1, 2014 데이터소스의 유형에는 다음과 같은 것들이 있다:오픈 데이터텍스트 파일Excel 파일SQL 데이터베이스NoSQL 데이터베이스멀티미디어웹 스크랩 이들에 대해 각각 자세히 알아보도록 하자. 데이터 소스데이터소스란, 데이터를 추출 및 저장과 관련된 모든 기술을 설명하는데 사용되는 용어이다. 가공되지 않은 데이터의 근원지는 관찰 로그(observation logs), 센서, 트랜잭션(transaction), 사용자 행동 등이다. 데이터소스와 데이터세트에 대해 언급할 것인데, 데이터세트란 데이터의 집합체를 의미하며 일반적으로 행과 열을 갖는 테이블형으로 정리된다. [그림 1.] 데이터세트의 예 (출처: http://commons.wikimedia.or..
흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다. 빅 데이터의 핵심 특징은 다음과 같다:크기 (Volume): 데이터의 방대한 양.다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.속도 (Velocity): 데이터는 신속하게 분석되어야 함.위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity..
데이터 시각화의 목적은 그래프 등의 형태로 표현하여 숫자 또는 문자만으로는 발견하기 어려운 패턴 또는 관계를 한 눈에 발견하기 쉽도록 하는 것이다. 시각화는 일단 멋있어 보이는 것도 중요하며 무엇보다 의미를 찾아낼 수 있도록 하여 의사결정에 기여를 해야한다. 결국 데이터를 시각화한다는 것은, 복잡한 데이터 세트(그것이 크든 작든)의 설명을 보다 효과적으로 전달하기 위함이다.데이타 시각화의 종류는 매우 다양한데 대표적인 것으로는, 바 차트 (Bar Chart) 파이 차트 (Pie Chart) 히트 맵 (Hear Map) 빈도 워들 (Frequency Wordle) 등이 있다. 이외에도 보다 다양한 종류가 있는데 이에 대해서는 데이터 시각화에 대한 내용을 다룰 때 소개하도록 하겠다. 데이터 시각화 기법을 중..
원문 : http://www.ciokorea.com/news/16525이어지는 경기 불황, 그리고 그로 인한 고용시장의 침체는 앞으로도 한동안 구직자들을 힘겹게 할 전망이다. 그러나 이런 시장 상황 속에서도 ‘떠오르는' 직종은 있다. 데이터 과학자가 바로 그것이다. 데이터 과학자는 CNN을 통해서도 2012년 최고의 신규 유망 직종으로, 또 하버드 비즈니스 리뷰(Harvard Business Review)를 통해서도 21세기의 ‘가장 매력적인' 직종으로 선정된 바 있다.데이터 과학자에 대한 이러한 평가는 빅 데이터 및 애널리틱스와 관련한 시장 전반의 관심과 관련 있다. 쏟아지고 있는 막대한 정보들 속에서 의미 있는 요소를 발굴하고 그것을 비즈니스 가치로 연결하는 것이 바로 데이터 과학자의 역할이기 때문이..
원문 : http://www.ciokorea.com/news/20650받아들일 용의가 있고, 올바르게 활용할 수만 있다면 빅 데이터가 주는 장점은 거부하기 힘든 수준이다. 빅 데이터를 이용해 기업을 변화시킬 수 있고, 고객에게 좀 더 다가갈 수 있으며, 시장에서의 타깃 효율성과 이윤을 증가시킬 수도 있다. 이미 손 안에 있는 데이터를, 단지 알아보고 활용할 안목이 없어서 아깝게 버리고 있는 것이다. 데이터 과학자의 역할은 여기서 중요해진다. 데이터 과학자는 현재 시장에서 가장 ‘뜨거운’ 직종 중 하나다. 데이터 과학자에 적합한 인재는 숫자에 능숙하고, 기업 상황에 능하며 통계 컴퓨팅 언어를 마치 숙련된 피아니스트가 연주를 하듯 다룰 수 있는 사람일 것이다. 하지만 이런 이상적 인재상을 실제 직무 기술서와..
원문 : http://www.itworld.co.kr/news/86750SAS가 IT, 현업, 분석 관리자 및 임원 578명을 대상으로 조사한 결과, IT가 종종 분석의 이네이블러가 아닌, 장애요소로 보는 경향이 있는 것으로 파악됐다.기업의 38%는 자사 분석 인력 대부분이 외부의 중앙집중식 분석 그룹에 상주해 있다고 답했으며 21%는 해당 그룹이 주로 분석 전략을 결정했다고 말했다.응답자의 대부분인 95%는 분석의 혜택을 보고 있지만 실제로 그 가치를 측정할 수 있다고 말한 임원들은 31%에 불과했다."개별 부서가 데이터를 수집하고 일부 유사한 분석 전략을 함께 수행하는 부서별 애널리스트들을 사용하고 있다"라고 SAS의 글로벌 마케팅 컨설턴트 토니 해밀턴은 지적했다. "그러나 이러한 접근방법은 단일 고..
우선 정량적 데이터와 정성적 데이터에 대한 정의를 내려보자: 정량적 데이터: 숫자로 표현되는 수치 데이터.정성적 데이터: 자연언어에 의한 서술로 표현되는 범주형 데이터.다음 그림을 통해 이들에 대한 차이점을 보다 명확하게 이해해 보자: [그림 1.] 정량적 데이터와 정성적 데이터의 특성에 대한 차이점. 정량적 분석은 수치에 대한 분석을 포함한다. 분석 유형은 측정 수준에 따라 다르며, 측정에 대한 유형은 다음과 같이 크게 네 가지로 구분할 수 있다:명사형: 데이터의 논리적 순서를 정의할 수 없으며 데이터 분류에 사용된다.순서형: 데이터는 논리적 순서를 가지며 값들 간의 차이가 일정하지 않다.간격형: 데이터는 연속적이며 논리적 순서에 의존한다. 값들 간의 차이가 일정하며 차이가 0인 경우는 배제한다.비율형..
데이터를 분석하는 목적은 여러가지가 있겠지만 공통적으로는 과거로부터 현재까지 수집된 데이터를 기반으로 어떠한 현상이나 트렌드를 찾아내는 것이다. 즉, 데이터 분석은 어떠한 현상이나 트렌드가 어떠한 데이터와 상관성이 있는지를 발견하고, 이에 대한 인과관계를 규명하는 시작점이 될 것이다. 더 나아가서는 이러한 데이터를 바탕으로 미래에 어떠한 현상이 나타날지를 예측하는 데에도 목적이 있을 것이다. 우리는 최근 정보 사회에서 지식 사회로 패러다임의 변화를 겪고 있다. 적어도 현재까지는 "지식(knowledge)"이라 함은 과거의 현상을 얼마나 잘 이해하고 있는가로 정의되었다면 이제부터의 "지식"은 미래를 얼마나 잘 예측할 수 있는가로 깊이가 판가름 날 것이다. 데이터 분석에 있어 항상 겪는 일이지만 판단 기준(..