일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Deep learning
- 데이터 과학
- c++
- node.js
- data science
- 김양재 목사
- 몽고디비
- No SQL
- nodeJS
- Statistics
- MongoDB
- 통계
- R
- Artificial Intelligence
- 김양재 목사님
- 우리들교회
- 빅 데이타
- 딥러닝
- 빅 데이터
- 빅데이타
- Machine Learning
- probability
- 인공지능
- openCV
- 김양재
- 확률
- 주일설교
- Big Data
- 빅데이터
- WebGL
- Today
- Total
목록빅데이타 (110)
Scientific Computing & Data Science
이번 글에서는 한 대학의 동문들이 기부한 기부금에 대한 데이터 마이닝 연습을 해보도록 한다. [데이터 준비하기]우선 다음 CSV 파일을 다운받고 R의 working directory에 저장한다: 그래픽 처리를 위한 lattice 라이브러리를 임포트하고 위에 첨부한 CSV 파일의 데이터를 불러내어 don이라는 변수에 저장한다. > library("lattice") > don = read.csv("contribution.csv") 우선 don의 항목을 살펴보자:> names(don) [1] "Gender" "Class.Year" "Marital.Status" "Major" "Next.Degree" [6] "FY04Giving" "FY03Giving" "FY02Giving" "FY01Giving" "FY00G..
이번 글에서는 "Data for R in a nutshell"이 제공하는 2006년도 출산 데이터와 다양한 시각화 도구를 이용하여 데이터 분석 및 마이닝을 연습해 보도록 한다."R in a nutshell"의 데이터를 불러오는 방법에 대한 자세한 내용은 패키지와 데이터 기본을 참고하도록 한다. [준비할 사항]데이터의 시각화를 위해 lattice 라이브러리와 nuteshell 라이브러리를 불러온다. lattice 라이브러리는 barchart, histogram, density plot 등 다양한 데이터 시각화 도구를 제공하며, nuteshell 라이브러리는 데이터 분석 연습을 위한 샘플을 제공한다.> library(lattice) > library(nutshell)데이터는 2006년도 출산 샘플 데이터인 ..
'데이터 마이닝'이란 금을 채광(Gold Mining)하는 것처럼, 획득된 데이터로부터 의미있거나 가치있는 정보를 발견하는 일을 의미한다. 이러한 활동을 통해 기업들은 소비자들이 원하는 것이 무엇인지 발견하여 마켓팅으로 활용하거나 새로운 비즈니스의 기회를 모색할 수도 있다. 또한 각종 정부기관들은 재난사고를 미리 예측하여 사고를 예방하거나 여론을 파악하는데 활용할 수도 있다.데이터 마이닝은 데이터로부터 가치를 발견한다는 점에서 단순 데이터 분석과는 차별된다. 단, 데이터 마이닝을 위해서는 획득할 수 있는 데이터의 범주가 다양할 수록 좋다. 왜냐하면 데이터의 범주가 다양할 수록 다양한 의미를 발견할 가능성이 높아지기 때문이다.데이터에 대해 많은 의존을 하는 스포츠 중의 하나인 야구를 예로 들어보자. 우리나..
Written by Geol Choi | May. 1, 2014 데이터소스의 유형에는 다음과 같은 것들이 있다:오픈 데이터텍스트 파일Excel 파일SQL 데이터베이스NoSQL 데이터베이스멀티미디어웹 스크랩 이들에 대해 각각 자세히 알아보도록 하자. 데이터 소스데이터소스란, 데이터를 추출 및 저장과 관련된 모든 기술을 설명하는데 사용되는 용어이다. 가공되지 않은 데이터의 근원지는 관찰 로그(observation logs), 센서, 트랜잭션(transaction), 사용자 행동 등이다. 데이터소스와 데이터세트에 대해 언급할 것인데, 데이터세트란 데이터의 집합체를 의미하며 일반적으로 행과 열을 갖는 테이블형으로 정리된다. [그림 1.] 데이터세트의 예 (출처: http://commons.wikimedia.or..
흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다. 빅 데이터의 핵심 특징은 다음과 같다:크기 (Volume): 데이터의 방대한 양.다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.속도 (Velocity): 데이터는 신속하게 분석되어야 함.위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity..
데이터 시각화의 목적은 그래프 등의 형태로 표현하여 숫자 또는 문자만으로는 발견하기 어려운 패턴 또는 관계를 한 눈에 발견하기 쉽도록 하는 것이다. 시각화는 일단 멋있어 보이는 것도 중요하며 무엇보다 의미를 찾아낼 수 있도록 하여 의사결정에 기여를 해야한다. 결국 데이터를 시각화한다는 것은, 복잡한 데이터 세트(그것이 크든 작든)의 설명을 보다 효과적으로 전달하기 위함이다.데이타 시각화의 종류는 매우 다양한데 대표적인 것으로는, 바 차트 (Bar Chart) 파이 차트 (Pie Chart) 히트 맵 (Hear Map) 빈도 워들 (Frequency Wordle) 등이 있다. 이외에도 보다 다양한 종류가 있는데 이에 대해서는 데이터 시각화에 대한 내용을 다룰 때 소개하도록 하겠다. 데이터 시각화 기법을 중..
원문 : http://www.ciokorea.com/news/16525이어지는 경기 불황, 그리고 그로 인한 고용시장의 침체는 앞으로도 한동안 구직자들을 힘겹게 할 전망이다. 그러나 이런 시장 상황 속에서도 ‘떠오르는' 직종은 있다. 데이터 과학자가 바로 그것이다. 데이터 과학자는 CNN을 통해서도 2012년 최고의 신규 유망 직종으로, 또 하버드 비즈니스 리뷰(Harvard Business Review)를 통해서도 21세기의 ‘가장 매력적인' 직종으로 선정된 바 있다.데이터 과학자에 대한 이러한 평가는 빅 데이터 및 애널리틱스와 관련한 시장 전반의 관심과 관련 있다. 쏟아지고 있는 막대한 정보들 속에서 의미 있는 요소를 발굴하고 그것을 비즈니스 가치로 연결하는 것이 바로 데이터 과학자의 역할이기 때문이..
원문 : http://www.itworld.co.kr/news/86750SAS가 IT, 현업, 분석 관리자 및 임원 578명을 대상으로 조사한 결과, IT가 종종 분석의 이네이블러가 아닌, 장애요소로 보는 경향이 있는 것으로 파악됐다.기업의 38%는 자사 분석 인력 대부분이 외부의 중앙집중식 분석 그룹에 상주해 있다고 답했으며 21%는 해당 그룹이 주로 분석 전략을 결정했다고 말했다.응답자의 대부분인 95%는 분석의 혜택을 보고 있지만 실제로 그 가치를 측정할 수 있다고 말한 임원들은 31%에 불과했다."개별 부서가 데이터를 수집하고 일부 유사한 분석 전략을 함께 수행하는 부서별 애널리스트들을 사용하고 있다"라고 SAS의 글로벌 마케팅 컨설턴트 토니 해밀턴은 지적했다. "그러나 이러한 접근방법은 단일 고..
우선 정량적 데이터와 정성적 데이터에 대한 정의를 내려보자: 정량적 데이터: 숫자로 표현되는 수치 데이터.정성적 데이터: 자연언어에 의한 서술로 표현되는 범주형 데이터.다음 그림을 통해 이들에 대한 차이점을 보다 명확하게 이해해 보자: [그림 1.] 정량적 데이터와 정성적 데이터의 특성에 대한 차이점. 정량적 분석은 수치에 대한 분석을 포함한다. 분석 유형은 측정 수준에 따라 다르며, 측정에 대한 유형은 다음과 같이 크게 네 가지로 구분할 수 있다:명사형: 데이터의 논리적 순서를 정의할 수 없으며 데이터 분류에 사용된다.순서형: 데이터는 논리적 순서를 가지며 값들 간의 차이가 일정하지 않다.간격형: 데이터는 연속적이며 논리적 순서에 의존한다. 값들 간의 차이가 일정하며 차이가 0인 경우는 배제한다.비율형..
by Geol Choi | April 10, 2014MongoDB에서 인증을 통해 마스터와 슬레이브 노드 간 복제를 하고자 할 경우에는 슬레이브 노드가 마스터 노드의 데이터에 접근할 수 있는 권한을 설정할 수 있는 방법이 있다. 접근을 하고자 하는 마스터 노드의 db에 username과 password를 지정하여 user를 추가하고 슬레이브 노드에도 동일한 username과 password를 갖는 user를 추가한다.user를 추가하는 방법은 createUser() 메써드를 사용하는 것이다. 예를 들어, test라는 db에 다음과 같이 user를 추가해 보자:> use test switched to db test > db.createUser( ... { ... user: "cinema4d", ... pw..