일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 몽고디비
- 확률
- 김양재 목사님
- probability
- node.js
- 김양재 목사
- Big Data
- 빅데이터
- openCV
- nodeJS
- 통계
- 빅 데이터
- 인공지능
- Artificial Intelligence
- 우리들교회
- 딥러닝
- data science
- c++
- 빅 데이타
- Machine Learning
- 주일설교
- 김양재
- Deep learning
- MongoDB
- No SQL
- Statistics
- 빅데이타
- 데이터 과학
- WebGL
- R
- Today
- Total
목록인공지능 (40)
Scientific Computing & Data Science
Written by Geol Choi | Nov. 12, 2016 이전 글(Naive Bayes Spam Filter Part 1.)에서 Naive Bayes에 대한 이론을 다뤘습니다. 이번 글에서는 이론을 바탕으로 휴대폰의 SMS 데이터의 Spam Filter를 작성해 보도록 하겠습니다. 일반적인 데이터 분석 프로세스는, (1) 문제 정의(2) 데이터 획득(3) 데이터 클린업(4) 데이터 정규화(5) 데이터 변형 및 가공(6) 데이터 탐구 기반 통계(7) 데이터 탐구 기반 시각화(8) 예측 모델(9) 모델 평가(10) 결과에 대한 시각화 및 해석(11) 솔루션 배포 인데, Machine Learning에 의한 결과 도출도 이 순서와 크게 다르지 않으며, 전체적인 순서는 다음 그림과 같습니다. 1. 데이..
Written by Geol Choi | Nov. 07, 2016 이번 글에서는 Naive Bayes 이론을 기반으로 한 Spam Filter 작성에 대해 알아보도록 하겠습니다. Theoretical Background서로 종속적인 사건 A, B가 있을 때 사건 B가 일어났다는 전제 하에 사건 A가 일어날 확률은 다음과 계산됩니다: \(P(A\mid B) = \displaystyle{\frac{P(A \cap B)}{P(B)}}\) ...(1) 여기서 \(P(A \mid B)\)를 조건부 확률(Conditional Probability)이라고 하며, 이는 사건 A와 B가 동시에 일어날 확률, \(P(A \cap B)\)과 사건 B가 일어날 확률에 의해 결정됩니다. 즉, Bayes' Theorem이 의미하..
OverviewDecision Tree 알고리즘 중 가장 알려진 것 중 하나컴퓨터 과학자 J. Ross Quinlan이 개발함Iterative Dichotomiser(ID3)에 대한 개선한 C4.5 알고리즘을 개선한 것임RuleRequest Research에서 알고리즘을 다운받을 수 있음 강점 약점 대부분의 문제에 적합함 손실 데이터를 포함한 숫자형 또는 명칭형 데이터를 다룰 수 있는 자동화 Learning Process중요하지 않은 특징 제거데이터 셋의 규모에 상관없이 사용 가능수학 배경 없이도 해석할 수 있는 모델 생성다른 복잡한 모델 보다 효율적 Decision Tree 알고리즘은 많은 수의 레벨을 갖는 Feature에 대한 구분에 있어 치우는 경향이 있음모델에 대한 과다 적합 또는 미적합 되는 경..
지난 글(k-Nearest Neighbor Algorithm)을 통해 R에서 k-NN 알고리즘 코드를 작성해 보았습니다. 이제 이 코드를 이용하여 숫자 필기 인식을 하는 R 코드를 작성해 보도록 하겠습니다. 데이터 준비우선 0~9의 숫자를 손으로 쓴 데이터를 준비합니다. 두 그룹을 준비하는데, 하나는 Training Dataset으로 사용될 그룹이며 다른 하나는 Test Dataset으로 사용될 그룹입니다. 이 데이터들은 Manning Publications의 "Machine Learning in Action"에서 제공하는 데이터를 활용하였습니다. 데이터 다운로드를 받으려면 [여기]를 클릭합니다. 해당 데이터 경로는 MLiA_SourceCode/machinelearninginaction/Ch02/digi..
지난 글에서 R을 이용한 k-NN 알고리즘에 대하여 살펴본 바 있다. (k-Nearest Neighbor Algorithm) 그러나, R의 라이브러리 중 하나인 class 라이브러리를 이용한 것이며, 실질적으로 R을 이용하여 구체적으로 어떻게 코딩되는지 살펴보지는 않았다. 이번 글에서는 R에서 실질적으로 k-NN 알고리즘을 구현해 보도록 한다. k-NN 함수k-NN 함수를 다음과 같이 구현하였다. R CODE: ##################################################### # @function: KNN() - k-nearest neighbor algorithm # @input: # - df : data frame for training data set # - inX : ..
이번 글에서는 R을 이용하여 필기된 숫자가 포함된 이미지를 0과 1의 binary text 형식으로 변환하는 방법에 대하여 알아보겠다. 우선 R의 Image Processing Package인 EBImage를 다운로드한다. source("http://bioconductor.org/biocLite.R") biocLite("EBImage") 다음과 같이 필기된 숫자가 포함된 이미지를 0과 1의 binary text 형식으로 변환하는 R 함수를 작성하였다: #################################################################################################### # @function : ConvertImageToText # @author..
이번 글에서는 Multiple Linear Regression(다중 선형 회귀분석)에 대한 기초 통계 이론에 대한 소개와 이에 대한 R 프로그래밍에 대해 알아보기로 한다.Theoretical Background일반적으로 얻어지는 데이터들은 여러 개의 독립변수들에 의해 얻어진다. Multiple Linear Regression은 이러한 여러 개의 독립변수(설명변수)들과 종속변수(반응변수)들 간의 관계(모델)를 도출하고, 얻어진 모델을 이용하여 특정 독립 변수에 대한 추정값을 얻는 기법이다. 다음은 n개의 독립변수들을 갖는 Multiple Linear Regression 모델이다: \( \displaystyle{ y = \beta_0 x_0 + \beta_1 x_1 + \cdots + \beta_n x_n ..
Written by cinema4dr12이전에 Supervised Learning의 기법 중 하나로서 k-Nearest Neighbor(kNN) 알고리즘에 대하여 살펴본 바가 있다.이번 글에서는 Unsupervised Learning의 기법 중 하나인 k-means 알고리즘과 예제를 R을 이용하여 살펴보도록 하겠다.Clustering이란, 분류가 되어 있지 않는 데이터 집합들을 그룹화 하는 것으로, 이미 데이터의 분류 기준이 정해져 있는 상태에서 새로운 데이터를 어느 집합으로 분류할 것인가를 정하는 classification과 대비된다. 그렇다면 clustering이란 무엇인가?[1] Clustering이란 다음 기준을 만족하여 데이터를 분류하는 것이다:(1) Class 내에서는 데이터 간 유사성이 높다..
1. Concept of Algorithmk-Nearest Neighbor(k-NN)는 어떤 데이터 오브젝트이 집합에 대하여 일정 규칙에 의하여 분류된 상태에서 새로운 데이터 오브젝트에 대한 분류를 하는 알고리즘입니다. 이 때 미리 분류된 데이터 오브젝트를 기계에 입력하여 기계가 분류 기준을 판단할 수 있도록 하는 것을 training이라고 합니다. k-NN은 기계 학습(Machine Learning) 중 지도 학습(Supervised Learning)에 대한 분류(classification) 알고리즘입니다. 이 알고리즘은 여러 분야에 사용될 수 있으며 대표적으로 도서 나 영화 추천 서비스 등이 있습니다. 사실 알고리즘 컨셉은 의외로 단순합니다. 예를 들어, 기계에게 영화의 특성을 알려 주고 어떤 장르의..
"데이터 분석"이란 가공되지 않은 데이터를 정렬하고 조직화하여 과거를 설명하고 미래를 예측할 수 있는 방법을 세우는 과정이다. 데이터 분석은 단순한 숫자에 관한 것이 아니며, 질문을 세우거나 질문을 하는 것, 설명 방식에 대한 개발을 하는 것, 가설을 검증하는 것에 관한 것이다. 데이터 분석은 다중의 분야를 융합하는 것으로써, 해당 분야는 컴퓨터 과학(Computer Science), 인공 지능(Artificial Intelligence), 기계 학습(Machine Learning), 통계와 수학(Statistics & Mathematics), 지식 도메인(Knowledge Domain)이다.컴퓨터 과학컴퓨터 과학은 데이터 분석과 분석된 데이터의 설명을 위한 가시화에 관련된 도구를 제공한다. 데이터 분석..