일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- R
- 확률
- 주일설교
- 몽고디비
- node.js
- 인공지능
- WebGL
- No SQL
- Statistics
- 우리들교회
- Big Data
- 빅데이터
- 딥러닝
- 김양재 목사
- 데이터 과학
- 빅 데이터
- 김양재 목사님
- 통계
- data science
- probability
- openCV
- MongoDB
- 빅 데이타
- Artificial Intelligence
- 빅데이타
- 김양재
- nodeJS
- Deep learning
- Machine Learning
- c++
- Today
- Total
목록머신러닝 (31)
Scientific Computing & Data Science
이 글은 본래 Capital of Statistic에 중국어로 간행된 것이며 많은 훌륭한 조언을 해준 He Tong에게 감사를 전한다.이 글에 수록된 모든 코드는 GitHub[링크]에 있다.데이터 과학자들은 R, SAS, SPSS, MATLAB 등과 같은 통계 소프트웨어에 이미 익숙해있다; 그러나, 일들 중 일부는 병렬 컴퓨팅에 상대적으로 미숙하다. 그래서 이 글에서 R에서 병렬 컴퓨팅 사용에 대한 기본개념을 소개하고자 한다. 병렬 컴퓨팅이란 무엇인가?병렬 컴퓨팅은 분명히 고성능 컴퓨터와 병렬 소프트웨어를 포함해야 한다. 고성능 컴퓨터의 피크(Peak) 성능은 급증하고 있다. 최근의 세계 500대 수퍼컴퓨터 랭킹에서 중국의 Sunway TaihuLight은 93 PFLOPS로 최고에 올라있다(링크). 대..
이번 글에서는 R에서 병렬처리를 하는 방법에 대하여 소개하도록 한다.R-bloggers의 글, How-to go parallel in R - basics + tips의 내용을 최대한 참고하여 정리해 보았다. [목차]1. lapply에 대하여2. parallel 패키지3. foreach 패키지4. 디버깅5. 캐싱(Caching)6. 계산 부하 밸런싱7. 이미지 프로세싱 예제 1. lapply에 대하여R이 기본적으로 제공하는 함수들 중 가장 많이 사용되는 함수가 lapply일 것이다.이와 유사한 함수로 apply, sapply, tapply 등이 있는데 각자의 쓰임새가 있으며, 자신이 R유저라고 자신한다면 이 함수들이 어느 상황에 적절히 쓰이는지 이해하고 자유자재로 다룰 수 있어야 한다고 생각한다. 다음 코..
데이터 과학이 R, Python, Hadoop, SQL 및 전통적 머신러닝 또는 통계 모델링에 대한 것이라고 믿는 사람들이 많다. 아래의 글들은 데이터 과학이 얼마나 현대적이며, 넓고 깊은 분야인지를 기본적으로 보여준다. 어떤 데이터 과학자들은 실제로 위에 나열된 것들 중 아무 것도 하지 않는다. 어떠한 코딩도 하지 않고, 대신, 머신 간 통신 프레임워크에서 다양한 어플리케이션들이 서로 대화하도록 하는 일을 데이터 과학자도 있다. 그러나 대부분의 데이터 과학자들이 R, Python, Hadoop 관련 시스템을 사용하는 것은 사실이다.심층 데이터 과학에 대한 글(아래 참고)을 읽어보면 데이터 과학 또한 많은 사람들(자신을 데이터 과학자라고 부르는 사람들)이 반복적으로 하는 일을 자동화하는 것을 알 수 있다..
* 이 글은 Data Science Central의 "Difference between Machine Learning, Data Science, AI, Deep Learning, and Statistics"을 번역한 것이다. 이번 글에서는 데이터 과학자의 다양한 역할과 머신러닝, 딥 러닝, AI, 통계학, IoT, 오퍼레이션 리서치, 응용 수학 등과 같은 관련 분야와 데이터 과학이 어떻게 다른지 공통점은 무엇인지 기술하고자 한다.데이터 과학은 넓은 분야를 포괄하는 만큼, 어떤 사업 분야에서도 마주칠 수 있는 데이터 과학자의 다양한 유형에 대해 살펴보기록 한다: 각자는 자신이 미처 몰랐던 스스로가 데이터 과학자임을 깨닫게 될 수도 있다.다른 과학 분야의 소양과 마찬가지로, 데이터 과학자들은 관련 소양으로부..
이번 글에서는 Support Vector Machine(이하 SVM)의 개념과 간단한 이론에 대해 이해하고자 한다. 1. SVM의 개념SVM의 개념은 매우 간단한데, 특징에 따라 서로 유사한 그룹끼리 칸막이를 쳐서 나누는 것이다.이 칸막이를 초평면(Hyperplane)이라고 부른다.SVM의 기초가 되는 수학적 이론은 수십년에 걸쳐 정리가 되었지만, 최근이 되어서야 주목을 받게 되었는데, 그 이유는 첫번째로 성능이 월등히 개선되었고, 이에 따라 여러 프로그래밍 언어를 지원하는 잘 정돈된 라이브러리가 등장했기 때문이다.SVM은 분류 및 수치 예측 등 거의 모든 학습 문제에 잘 대처할 수 있는데 특히 알고리즘의 성공적인 열쇠가 되는 것은 패턴 인식이다.주목할 만한 응용분야는 다음과 같다:바이오인포매틱스 분야에..
Written by Geol Choi | Nov. 12, 2016 이전 글(Naive Bayes Spam Filter Part 1.)에서 Naive Bayes에 대한 이론을 다뤘습니다. 이번 글에서는 이론을 바탕으로 휴대폰의 SMS 데이터의 Spam Filter를 작성해 보도록 하겠습니다. 일반적인 데이터 분석 프로세스는, (1) 문제 정의(2) 데이터 획득(3) 데이터 클린업(4) 데이터 정규화(5) 데이터 변형 및 가공(6) 데이터 탐구 기반 통계(7) 데이터 탐구 기반 시각화(8) 예측 모델(9) 모델 평가(10) 결과에 대한 시각화 및 해석(11) 솔루션 배포 인데, Machine Learning에 의한 결과 도출도 이 순서와 크게 다르지 않으며, 전체적인 순서는 다음 그림과 같습니다. 1. 데이..
Written by Geol Choi | Nov. 07, 2016 이번 글에서는 Naive Bayes 이론을 기반으로 한 Spam Filter 작성에 대해 알아보도록 하겠습니다. Theoretical Background서로 종속적인 사건 A, B가 있을 때 사건 B가 일어났다는 전제 하에 사건 A가 일어날 확률은 다음과 계산됩니다: \(P(A\mid B) = \displaystyle{\frac{P(A \cap B)}{P(B)}}\) ...(1) 여기서 \(P(A \mid B)\)를 조건부 확률(Conditional Probability)이라고 하며, 이는 사건 A와 B가 동시에 일어날 확률, \(P(A \cap B)\)과 사건 B가 일어날 확률에 의해 결정됩니다. 즉, Bayes' Theorem이 의미하..
OverviewDecision Tree 알고리즘 중 가장 알려진 것 중 하나컴퓨터 과학자 J. Ross Quinlan이 개발함Iterative Dichotomiser(ID3)에 대한 개선한 C4.5 알고리즘을 개선한 것임RuleRequest Research에서 알고리즘을 다운받을 수 있음 강점 약점 대부분의 문제에 적합함 손실 데이터를 포함한 숫자형 또는 명칭형 데이터를 다룰 수 있는 자동화 Learning Process중요하지 않은 특징 제거데이터 셋의 규모에 상관없이 사용 가능수학 배경 없이도 해석할 수 있는 모델 생성다른 복잡한 모델 보다 효율적 Decision Tree 알고리즘은 많은 수의 레벨을 갖는 Feature에 대한 구분에 있어 치우는 경향이 있음모델에 대한 과다 적합 또는 미적합 되는 경..
지난 글(k-Nearest Neighbor Algorithm)을 통해 R에서 k-NN 알고리즘 코드를 작성해 보았습니다. 이제 이 코드를 이용하여 숫자 필기 인식을 하는 R 코드를 작성해 보도록 하겠습니다. 데이터 준비우선 0~9의 숫자를 손으로 쓴 데이터를 준비합니다. 두 그룹을 준비하는데, 하나는 Training Dataset으로 사용될 그룹이며 다른 하나는 Test Dataset으로 사용될 그룹입니다. 이 데이터들은 Manning Publications의 "Machine Learning in Action"에서 제공하는 데이터를 활용하였습니다. 데이터 다운로드를 받으려면 [여기]를 클릭합니다. 해당 데이터 경로는 MLiA_SourceCode/machinelearninginaction/Ch02/digi..
지난 글에서 R을 이용한 k-NN 알고리즘에 대하여 살펴본 바 있다. (k-Nearest Neighbor Algorithm) 그러나, R의 라이브러리 중 하나인 class 라이브러리를 이용한 것이며, 실질적으로 R을 이용하여 구체적으로 어떻게 코딩되는지 살펴보지는 않았다. 이번 글에서는 R에서 실질적으로 k-NN 알고리즘을 구현해 보도록 한다. k-NN 함수k-NN 함수를 다음과 같이 구현하였다. R CODE: ##################################################### # @function: KNN() - k-nearest neighbor algorithm # @input: # - df : data frame for training data set # - inX : ..