일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 통계
- 확률
- 데이터 과학
- data science
- 김양재
- node.js
- nodeJS
- 빅데이터
- 빅 데이터
- 몽고디비
- 인공지능
- 주일설교
- c++
- Artificial Intelligence
- Statistics
- Deep learning
- MongoDB
- 김양재 목사
- probability
- Big Data
- 빅데이타
- No SQL
- 우리들교회
- R
- Machine Learning
- 딥러닝
- 김양재 목사님
- 빅 데이타
- openCV
- WebGL
- Today
- Total
목록통계 (47)
Scientific Computing & Data Science
[Definition][\(\chi\)-제곱 분포] \( f(x;k) = \begin{cases} \displaystyle{\frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}} {2^{\frac{k}{2}}\Gamma(\frac{k}{2})} }, \ \mathrm{if} \ x > 0 \\ 0, \ \mathrm{if} \ x \le 0 \end{cases} \) \(\Gamma(\frac{k}{2})\): 파라미터 k에 대한 Closed Form을 갖는 감마 함수x: 랜덤 변수,k: 정수 파라미터 [누적 \(\chi\)-제곱 분포] \( F(x;k) = \displaystyle{ \frac{ \Gamma \begin{pmatrix} \displaystyle{\frac{x}{2}, ..
이번 글에서는 "Data for R in a nutshell"이 제공하는 2006년도 출산 데이터와 다양한 시각화 도구를 이용하여 데이터 분석 및 마이닝을 연습해 보도록 한다."R in a nutshell"의 데이터를 불러오는 방법에 대한 자세한 내용은 패키지와 데이터 기본을 참고하도록 한다. [준비할 사항]데이터의 시각화를 위해 lattice 라이브러리와 nuteshell 라이브러리를 불러온다. lattice 라이브러리는 barchart, histogram, density plot 등 다양한 데이터 시각화 도구를 제공하며, nuteshell 라이브러리는 데이터 분석 연습을 위한 샘플을 제공한다.> library(lattice) > library(nutshell)데이터는 2006년도 출산 샘플 데이터인 ..
"데이터 분석"이란 가공되지 않은 데이터를 정렬하고 조직화하여 과거를 설명하고 미래를 예측할 수 있는 방법을 세우는 과정이다. 데이터 분석은 단순한 숫자에 관한 것이 아니며, 질문을 세우거나 질문을 하는 것, 설명 방식에 대한 개발을 하는 것, 가설을 검증하는 것에 관한 것이다. 데이터 분석은 다중의 분야를 융합하는 것으로써, 해당 분야는 컴퓨터 과학(Computer Science), 인공 지능(Artificial Intelligence), 기계 학습(Machine Learning), 통계와 수학(Statistics & Mathematics), 지식 도메인(Knowledge Domain)이다.컴퓨터 과학컴퓨터 과학은 데이터 분석과 분석된 데이터의 설명을 위한 가시화에 관련된 도구를 제공한다. 데이터 분석..
이번 글에서는 어떤 분포의 파라미터에 대해 추정하는 방법을 알아보도록 하겠다. 예를 들어, 실험자가 데이터 세트를 얻었으며 이 데이터 세트를 베타 분포라고 가정할 경우 베타 분포의 파라미터를 어떻게 추정할 것인가에 대한 물음이다.이를 해결하는 방법은 두 가지가 있는데, 하나는 모멘트 방법(Moment of Moments)이며 다른 하나는 최대 가능성 추정(Maximum Likelyhood Estimation; MLE)이다. [Definition] 파라미터 한 개에 대한 모멘트 방법 점 추정만약 데이터 세트가 한 개의 미지의 파라미터 \(\theta\)에 의존하는 확률분포로부터 얻은 데이터 \(x_1 , ... , x_n\)이라면, 파라미터의 모멘트 방법 점 추정 \(\hat{\theta}\)은 다음 방정..
편향 점 추정 (Unbiased Point Estimates)Definition 파라미터 \(\theta\)에 대한 점추정 \(\hat{\theta}\)는 \( \mathrm{E}(\hat{\theta}) = \theta \)인 경우 "비편향(unbiased)"라고 한다. "비편향"은 점 추정에 대한 좋은 특성이라고 할 수 있다. 만약 점 추정이 비편향이 아니라면, 이를 "편향(biased)"이라고 하며 다음과 같이 정의된다: \( \mathrm{bias} = \mathrm{E}(\hat{\theta}) - \theta \) 다른 조건이 동일한 경우, 점 추정의 보다 작은 절대값의 편향성이 더 좋은 것이다.성공 확률의 점 추정Definition 라고 할 때 는 성공 확률 p의 비편향 점 추정이다. Pro..
[Definition] 파라미터(Parameters)통계적 추론에 있어, 파라미터란 어떠한 측정량, \(\theta\)를 지칭하는데 사용된다. \(\theta\)는 알려지지 않은 확률 분포의 속성이다. 예를 들어, \(\theta\)는 확률 분포의 평균, 분산, 또는 Quantile 등이 될 수 있다. 파라미터는 미지의 값이며, 통계적 추론의 한 가지 목표는 이러한 파라미터를 추정하는 것이다.[Definition] 통계량(Statistics)통계적 추론에 있어, 통계량이란 표본의 속성인 측정량을 지칭하는데 사용된다. 예를 들어, 표본 평균, 표본 분산 또는 표본 퀀타일 등을 일컫는다. 통계량은 관찰된 값이 관찰된 데이터 값의 집합으로부터 계산되는 랜덤 변수이다. 통계량은 미지의 파라미터를 추정하는데 사용..
[데이터 직접 입력하기] R에서 데이터 입력의 가징 기본적인 것은 "c" 명령을 통해 사용자가 데이터를 직접 입력하는 것이며 다음과 같은 형식으로 입력한다:test.name = c(item.1, item.2, item.3, item.n)예를 들면, 다음과 같이 데이터를 입력할 수 있다. (반드시 아이템과 아이템 사이는 콤마(,)로 구분 짓는다)> myData = c(1,3,2,5,10) > myData [1] 1 3 2 5 10앞의 예는 숫자 데이터에 관한 것이었다. 만약 문자열 아이템을 데이터로 저장하려면 다음과 같이 따옴표 형식으로 입력한다:test.text = c(“item1”, “item2”, ‘item3’)예를 들어,> myData = c("dog", "pig", "cat", "horse") >..
[커맨드 패키지]R은 패키지(packages)라 불리우는 일련의 모듈들로 구성되어 있다. R을 시작할 때, 기본적으로 탑재된 패키지로 로딩되는데 현재 로딩된 패키지 리스트를 확인하려면 다음과 같이 입력한다:> search() [1] ".GlobalEnv" "tools:RGUI" "package:stats" "package:graphics" "package:grDevices" "package:utils" "package:datasets" [8] "package:methods" "Autoloads" "package:base" [표준 패키지]현재 로딩되어 있지는 않지만 사용가능한 패키지(물론 이들중에는 시작 시 자동으로 로딩되는 패키지들도 있다)의 리스트를 확인하려면 다음과 같이 입력한다:> installed..
R은 방대한 빌트인(built-in) 헬프 도큐먼트를 갖추고 있다. 가장 기본적인 헬프 명령은 "help(topic)" 형태이며 예를 들어 " barplot"에 대한 도움말을 알아 보고 싶다면> help(barplot)과 같이 입력하면 다음과 같이 헬프 창이 열린다.또 다른 명령으로는 "?topic" 형식이 있으며 마찬가지로 "barplot"에 대한 정보를 얻고자 한다면, > ?barplot와 같이 입력한다.웹 브라우저를 통해 헬프 시스템에 접속하려면> help.start() 만약 '/usr/bin/open'에 의하여 시작된 브라우저가 이미 실행중이라면, 다시 재시작되지 않을 것을 것입니다. 따라서, 당신은 반드시 해당 윈도우로 전환해야 합니다 만약 그렇지 않다면, 조금만 더 기다려보세요 ... 와 같이..
Descriptive Statistics - Sample Statistics표본 평균(Sample Mean)데이터 세트 \(\bar{x}\)의 표본 평균은 모집단으로부터 추출된 표본 집단의 기하평균이다. 만약 n개의 데이터 세트, \(x_1, x_2,...,x_n\)으로 구성된 표본 평균은 \( \bar{x} = \displaystyle{\frac{\displaystyle{\sum_{i=1}^{n}{x_i}}}{n}} \) 입니다. 표본 평균이 갖는 의미는 다음과 같습니다:확률변수 X의 랜덤 변수의 기대값 E(X)와 동일한 개념의 "중간값"으로 생각할 수 있습니다.관찰된 데이터 세트 내에서 미지의 확률분산의 기대값에 대한 추정으로 생각할 수 있습니다.표본 미디언 (Sample Median)순서를 정한 데..