일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 우리들교회
- openCV
- No SQL
- 몽고디비
- c++
- 인공지능
- Deep learning
- Artificial Intelligence
- 빅데이타
- 빅데이터
- Statistics
- 빅 데이터
- 주일설교
- 데이터 과학
- nodeJS
- 김양재
- 통계
- data science
- Machine Learning
- MongoDB
- R
- 김양재 목사
- Big Data
- 김양재 목사님
- WebGL
- 딥러닝
- 빅 데이타
- node.js
- 확률
- probability
- Today
- Total
목록probability (43)
Scientific Computing & Data Science
[Definition][\(\chi\)-제곱 분포] \( f(x;k) = \begin{cases} \displaystyle{\frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}} {2^{\frac{k}{2}}\Gamma(\frac{k}{2})} }, \ \mathrm{if} \ x > 0 \\ 0, \ \mathrm{if} \ x \le 0 \end{cases} \) \(\Gamma(\frac{k}{2})\): 파라미터 k에 대한 Closed Form을 갖는 감마 함수x: 랜덤 변수,k: 정수 파라미터 [누적 \(\chi\)-제곱 분포] \( F(x;k) = \displaystyle{ \frac{ \Gamma \begin{pmatrix} \displaystyle{\frac{x}{2}, ..
by Geol Choi | November 23, 2014 이번 글에서는 Linear Regression에 대한 기초 통계 이론에 대한 소개와 이에 대한 R 프로그래밍에 대해 알아보기로 한다. Linear Regression은 간단하게 말해, 관찰된 데이터들의 변수들 간 관계를 1차원적인 Graph로 표현(이를 fitting이라고 함)하는 것이다. Linear Regression은 통계학의 역사관점에서 볼 때, 특정 변수가 다른 변수와 어떤 상관관계인지를 알아보기 위한 수단으로 발전해 왔다. 데이터를 관찰하여 이에 대한 모델을 세우고 이 모델을 통해 데이터에 대한 예측을 하고자 하는 것이 목표이며, 더 나아가 이에 대한 신뢰도를 어떻게 평가할 수 있는가가 이 이론에 대한 거의 전부라고 할 수 있다. 물론..
이번 글에서는 어떤 분포의 파라미터에 대해 추정하는 방법을 알아보도록 하겠다. 예를 들어, 실험자가 데이터 세트를 얻었으며 이 데이터 세트를 베타 분포라고 가정할 경우 베타 분포의 파라미터를 어떻게 추정할 것인가에 대한 물음이다.이를 해결하는 방법은 두 가지가 있는데, 하나는 모멘트 방법(Moment of Moments)이며 다른 하나는 최대 가능성 추정(Maximum Likelyhood Estimation; MLE)이다. [Definition] 파라미터 한 개에 대한 모멘트 방법 점 추정만약 데이터 세트가 한 개의 미지의 파라미터 \(\theta\)에 의존하는 확률분포로부터 얻은 데이터 \(x_1 , ... , x_n\)이라면, 파라미터의 모멘트 방법 점 추정 \(\hat{\theta}\)은 다음 방정..
[Def.] 표본 비율(Sample Proportion)만약 \(X \sim B(n,p)\)이라면 표본 비율 \(\hat{p}=X/n\)은 근사 분산 \(\hat{p} \sim N \displaystyle{\begin{pmatrix}p, \frac{p(1-p)}{n} \end{pmatrix}}\) 을 갖는다. [Proof]\(\mathrm{Var}(\hat{p}) = \mathrm{Var}\displaystyle{\frac{X}{n}} = \displaystyle{\frac{1}{n^2}np(1-p) = \displaystyle{\frac{p(1-p)}{n}}}\)[Def.] 표준오차(Standard Error)표준오차 s.e.는 \(\hat{p}\)의 표준편차이며 \(\mathrm{s.e.}(\hat{..
편향 점 추정 (Unbiased Point Estimates)Definition 파라미터 \(\theta\)에 대한 점추정 \(\hat{\theta}\)는 \( \mathrm{E}(\hat{\theta}) = \theta \)인 경우 "비편향(unbiased)"라고 한다. "비편향"은 점 추정에 대한 좋은 특성이라고 할 수 있다. 만약 점 추정이 비편향이 아니라면, 이를 "편향(biased)"이라고 하며 다음과 같이 정의된다: \( \mathrm{bias} = \mathrm{E}(\hat{\theta}) - \theta \) 다른 조건이 동일한 경우, 점 추정의 보다 작은 절대값의 편향성이 더 좋은 것이다.성공 확률의 점 추정Definition 라고 할 때 는 성공 확률 p의 비편향 점 추정이다. Pro..
[Definition] 파라미터(Parameters)통계적 추론에 있어, 파라미터란 어떠한 측정량, \(\theta\)를 지칭하는데 사용된다. \(\theta\)는 알려지지 않은 확률 분포의 속성이다. 예를 들어, \(\theta\)는 확률 분포의 평균, 분산, 또는 Quantile 등이 될 수 있다. 파라미터는 미지의 값이며, 통계적 추론의 한 가지 목표는 이러한 파라미터를 추정하는 것이다.[Definition] 통계량(Statistics)통계적 추론에 있어, 통계량이란 표본의 속성인 측정량을 지칭하는데 사용된다. 예를 들어, 표본 평균, 표본 분산 또는 표본 퀀타일 등을 일컫는다. 통계량은 관찰된 값이 관찰된 데이터 값의 집합으로부터 계산되는 랜덤 변수이다. 통계량은 미지의 파라미터를 추정하는데 사용..
[데이터 직접 입력하기] R에서 데이터 입력의 가징 기본적인 것은 "c" 명령을 통해 사용자가 데이터를 직접 입력하는 것이며 다음과 같은 형식으로 입력한다:test.name = c(item.1, item.2, item.3, item.n)예를 들면, 다음과 같이 데이터를 입력할 수 있다. (반드시 아이템과 아이템 사이는 콤마(,)로 구분 짓는다)> myData = c(1,3,2,5,10) > myData [1] 1 3 2 5 10앞의 예는 숫자 데이터에 관한 것이었다. 만약 문자열 아이템을 데이터로 저장하려면 다음과 같이 따옴표 형식으로 입력한다:test.text = c(“item1”, “item2”, ‘item3’)예를 들어,> myData = c("dog", "pig", "cat", "horse") >..
Descriptive Statistics - Sample Statistics표본 평균(Sample Mean)데이터 세트 \(\bar{x}\)의 표본 평균은 모집단으로부터 추출된 표본 집단의 기하평균이다. 만약 n개의 데이터 세트, \(x_1, x_2,...,x_n\)으로 구성된 표본 평균은 \( \bar{x} = \displaystyle{\frac{\displaystyle{\sum_{i=1}^{n}{x_i}}}{n}} \) 입니다. 표본 평균이 갖는 의미는 다음과 같습니다:확률변수 X의 랜덤 변수의 기대값 E(X)와 동일한 개념의 "중간값"으로 생각할 수 있습니다.관찰된 데이터 세트 내에서 미지의 확률분산의 기대값에 대한 추정으로 생각할 수 있습니다.표본 미디언 (Sample Median)순서를 정한 데..
[Definition] 모집단 / 표본 / 임의 표본 / 통계학적 추론모집단(population)은 특정 확률 분포로부터 얻을 수 있는 가능한 관찰결과로 구성된다. 표본(sample)은 실험자가 측정하거나 알려지지 않은 확률 분포를 관찰하는데 사용되는 모집단의 특정 부분집합이다. 임의 표본(random sample)은 모집단으로부터 임의로 선택된 샘플의 요소이며, 이 과정은 종종 표본이 모집단의 특성을 잘 반영한다는 것을 확인하기 위해 사용된다.통계학적 추론(statistical inference)이란, 모집단으로부터 추출된 표본을 이용하여 데이터 분석을 통해 확률 밀도 함수 등과 같은 특성을 분석하는 방법을 의미한다. 다음 그림은 확률 이론과 통계학적 추론과의 관계를 설명하고 있다.[그림 1.] 확률 ..
중심 극한 정리(Central Limit Theorem)Definition만약 \(X_1,...,X_n\)이 평균값 \(\mu\)와 분산 \(\sigma^2\)을 갖는 동등한 확률 변수라면 이들의 평균 \(\bar{X}\)는 다음과 같이 근사화 될 수 있습니다: \( N \begin{pmatrix} \mu, \displaystyle{\frac{\sigma^2}{n}} \end{pmatrix} \) 이와 유사하게 분포의 합 \(X_1 + \cdot \cdot \cdot + X_n \)은 다음과 같이 근사화 됩니다: \(N(n \mu, n \sigma^2)\)Proof\( E(X_i) = \mu, \ Var(X_i) = \sigma^2, \ 1 \le i \le n \) 이므로 \( E(X_1 + \cdot..