일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 김양재 목사
- node.js
- WebGL
- 몽고디비
- c++
- Deep learning
- 빅 데이터
- Machine Learning
- 빅데이타
- 빅데이터
- 데이터 과학
- data science
- 김양재 목사님
- 딥러닝
- 김양재
- openCV
- R
- 주일설교
- Big Data
- 인공지능
- No SQL
- 확률
- Statistics
- nodeJS
- probability
- Artificial Intelligence
- MongoDB
- 우리들교회
- 통계
- 빅 데이타
- Today
- Total
목록Data Science/Data Analysis (9)
Scientific Computing & Data Science
Data science의 process는 다음과 같이 정리할 수 있다: 1. 질문하기 2. 배경연구(Background Research) 하기 3. 가설(hypothesis) 세우기 4. 실험을 통해 가설 검증하기 5. 데이터 분석 및 결론 이끌어 내기 6. 결과에 대한 토의하기기 결국 Data Science도 여타의 과학에 대한 절차와 거의 동일함을 알 수 있다.
Written by Geol Choi | May. 1, 2014 데이터소스의 유형에는 다음과 같은 것들이 있다:오픈 데이터텍스트 파일Excel 파일SQL 데이터베이스NoSQL 데이터베이스멀티미디어웹 스크랩 이들에 대해 각각 자세히 알아보도록 하자. 데이터 소스데이터소스란, 데이터를 추출 및 저장과 관련된 모든 기술을 설명하는데 사용되는 용어이다. 가공되지 않은 데이터의 근원지는 관찰 로그(observation logs), 센서, 트랜잭션(transaction), 사용자 행동 등이다. 데이터소스와 데이터세트에 대해 언급할 것인데, 데이터세트란 데이터의 집합체를 의미하며 일반적으로 행과 열을 갖는 테이블형으로 정리된다. [그림 1.] 데이터세트의 예 (출처: http://commons.wikimedia.or..
인터넷 기술의 발달로 데이터가 획득되는 경로는 점점 다양해 지고 있다. 인터넷이 데이터를 전달하는 통로라고 한다면, 실제 데이터를 취득하는 도구는 센서들이다. 센서들에는 카메라를 포함하여, RFID, 온도계, QR 코드, 온도계 등이다.최근 모든 사물이 연결되는 이른 바 사물인터넷(Internet of Things, IoT) 관련 기술이 발달하면서 통신, 보안 기술 뿐만 아니라 데이터를 취득할 수 있는 다양한 센서 및 관련 장비에 대한 관심이 높아지고 있다. 예를 들어, 지능형 피트니스 센터(Fitness Center)이 있다고 가정하자. 이 곳에서 모든 운동기구는 운동하는 사람을 인식(지문이든 홍채인식이든 또는 NFC를 통해서든간에)하여 런닝머쉰을 몇 분간, 얼마의 거리를 뛰었는지, 이를 통해 소모한 ..
흔히 빅 데이터란 데이터의 크기가 매우 커서 기존의 방법으로는 처리할 수 없는 것을 의미한다. 즉, 데이터가 일반적인 데이터베이스로는 처리가 불가능하능한 데이터를 의미한다. 데이터가 매우 빠르게 증가할 때 이 데이터를 바탕으로 숨겨진 패턴을 발견하고 알려지지 않은 상관관계를 찾아내거나 또는 다른 유용한 정보를 알아내려면 빅 데이터 분석법이 필요하다. 빅 데이터의 핵심 특징은 다음과 같다:크기 (Volume): 데이터의 방대한 양.다양성 (Variety): 구조형(또는 정형), 비구조형(또는 비정형) 및 다중구조형 데이터 등의 다양한 유형.속도 (Velocity): 데이터는 신속하게 분석되어야 함.위와 같은 특징들이 모두 영어 V로 시작되므로 3Vs라고도 하며, 이에 덧붙여 데이터의 신뢰성(Veracity..
데이터 시각화의 목적은 그래프 등의 형태로 표현하여 숫자 또는 문자만으로는 발견하기 어려운 패턴 또는 관계를 한 눈에 발견하기 쉽도록 하는 것이다. 시각화는 일단 멋있어 보이는 것도 중요하며 무엇보다 의미를 찾아낼 수 있도록 하여 의사결정에 기여를 해야한다. 결국 데이터를 시각화한다는 것은, 복잡한 데이터 세트(그것이 크든 작든)의 설명을 보다 효과적으로 전달하기 위함이다.데이타 시각화의 종류는 매우 다양한데 대표적인 것으로는, 바 차트 (Bar Chart) 파이 차트 (Pie Chart) 히트 맵 (Hear Map) 빈도 워들 (Frequency Wordle) 등이 있다. 이외에도 보다 다양한 종류가 있는데 이에 대해서는 데이터 시각화에 대한 내용을 다룰 때 소개하도록 하겠다. 데이터 시각화 기법을 중..
우선 정량적 데이터와 정성적 데이터에 대한 정의를 내려보자: 정량적 데이터: 숫자로 표현되는 수치 데이터.정성적 데이터: 자연언어에 의한 서술로 표현되는 범주형 데이터.다음 그림을 통해 이들에 대한 차이점을 보다 명확하게 이해해 보자: [그림 1.] 정량적 데이터와 정성적 데이터의 특성에 대한 차이점. 정량적 분석은 수치에 대한 분석을 포함한다. 분석 유형은 측정 수준에 따라 다르며, 측정에 대한 유형은 다음과 같이 크게 네 가지로 구분할 수 있다:명사형: 데이터의 논리적 순서를 정의할 수 없으며 데이터 분류에 사용된다.순서형: 데이터는 논리적 순서를 가지며 값들 간의 차이가 일정하지 않다.간격형: 데이터는 연속적이며 논리적 순서에 의존한다. 값들 간의 차이가 일정하며 차이가 0인 경우는 배제한다.비율형..
데이터를 분석하는 목적은 여러가지가 있겠지만 공통적으로는 과거로부터 현재까지 수집된 데이터를 기반으로 어떠한 현상이나 트렌드를 찾아내는 것이다. 즉, 데이터 분석은 어떠한 현상이나 트렌드가 어떠한 데이터와 상관성이 있는지를 발견하고, 이에 대한 인과관계를 규명하는 시작점이 될 것이다. 더 나아가서는 이러한 데이터를 바탕으로 미래에 어떠한 현상이 나타날지를 예측하는 데에도 목적이 있을 것이다. 우리는 최근 정보 사회에서 지식 사회로 패러다임의 변화를 겪고 있다. 적어도 현재까지는 "지식(knowledge)"이라 함은 과거의 현상을 얼마나 잘 이해하고 있는가로 정의되었다면 이제부터의 "지식"은 미래를 얼마나 잘 예측할 수 있는가로 깊이가 판가름 날 것이다. 데이터 분석에 있어 항상 겪는 일이지만 판단 기준(..
우리가 살고 있는 세계는 사방이 모두 데이터이다. 그것이 정형이든 비정형이든, 연속된 것이든 이산이든 날씨 데이터, 주식 거래 데이터, 소셜 미디어 사이트의 좋아요 수, 포토 앨범, 음악 재생 리스트 등 모든 것이 데이터이다. 사실 데이터라는 것은 모든 인간 활동의 기본 부산물이라 할 수 있다. 세계적 권위의 사전인 Oxford 사전은 데이터에 대해 다음과 같이 정의하고 있다:"Data are known facts or things used as basis for inference or reckoning." "데이터는 추측이나 예측을 위한 기반으로 활용되는 알려진 사실 또는 알려진 것이다."데이터는 다음과 같이 분류할 수 있다:Data 범주형(categorical)명사형(nominal)순서형(ordina..
"데이터 분석"이란 가공되지 않은 데이터를 정렬하고 조직화하여 과거를 설명하고 미래를 예측할 수 있는 방법을 세우는 과정이다. 데이터 분석은 단순한 숫자에 관한 것이 아니며, 질문을 세우거나 질문을 하는 것, 설명 방식에 대한 개발을 하는 것, 가설을 검증하는 것에 관한 것이다. 데이터 분석은 다중의 분야를 융합하는 것으로써, 해당 분야는 컴퓨터 과학(Computer Science), 인공 지능(Artificial Intelligence), 기계 학습(Machine Learning), 통계와 수학(Statistics & Mathematics), 지식 도메인(Knowledge Domain)이다.컴퓨터 과학컴퓨터 과학은 데이터 분석과 분석된 데이터의 설명을 위한 가시화에 관련된 도구를 제공한다. 데이터 분석..