일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 빅 데이타
- 김양재 목사
- 확률
- No SQL
- R
- Statistics
- 몽고디비
- Artificial Intelligence
- nodeJS
- WebGL
- 딥러닝
- 빅데이타
- Deep learning
- 빅 데이터
- 인공지능
- 통계
- 데이터 과학
- 김양재
- openCV
- MongoDB
- 우리들교회
- 김양재 목사님
- 주일설교
- node.js
- 빅데이터
- Big Data
- c++
- Machine Learning
- data science
- probability
- Today
- Total
Scientific Computing & Data Science
[Data Science / Statistics] Sampling Distributions 본문
[Data Science / Statistics] Sampling Distributions
cinema4dr12 2014. 3. 15. 00:35[Def.] 표본 비율(Sample Proportion)
만약 \(X \sim B(n,p)\)이라면 표본 비율 \(\hat{p}=X/n\)은 근사 분산
\(\hat{p} \sim N \displaystyle{\begin{pmatrix}p, \frac{p(1-p)}{n} \end{pmatrix}}\)
을 갖는다.
[Proof]
\(\mathrm{Var}(\hat{p}) = \mathrm{Var}\displaystyle{\frac{X}{n}} = \displaystyle{\frac{1}{n^2}np(1-p) = \displaystyle{\frac{p(1-p)}{n}}}\)
[Def.] 표준오차(Standard Error)
표준오차 s.e.는 \(\hat{p}\)의 표준편차이며
\(\mathrm{s.e.}(\hat{p}) = \displaystyle{\sqrt{\frac{p(1-p)}{n}}}\)
과 같이 정의된다. 표준오차는 점 추정 \(\hat{p}\)의 "정확도"의 척도를 제공한다. 표준오차의 값이 작을수록 점 추정의 정확도가 더 큼을 의미하는데, p의 실제값에 대한 분산이 더 작기 때문이다.
[Def.] 표본평균(Sample Mean)
만약 \(X_1,...,X_n\)이 평균 \(\mu\) 및 분산 \(\sigma^2\)을 갖는 모집단으로부터의 관찰 세트라면, 중심 극한 정리는 표본평균 \(\hat{\mu} = \bar{X}\)이 다음과 같은 근사 분산을 갖음을 의미한다:
\(\mu = \bar{X} \sim \displaystyle{N\begin{pmatrix}\mu, \frac{\sigma^2}{n}\end{pmatrix}}\)
[Proof]
[Proof]
[Def] 표본분산(Sample Variance)
만약 이 평균 와 분산 을 갖는 정규분포라면, 표본분산 은 분산
을 갖는다.
즉, 은 n-1 자유도를 갖는 정규화 카이제곱(chi-square) 확률 변수로 분포된다.
그런데 표준오차가 미지의 분산 에 의존하는 것은 이상하게 들릴 수 있으나 표본분산이 이 문제를 해결하는데 사용될 수 있다. 즉, 미지의 분산 은 t-분산을 이용하여 다음과 같이 제거된다:
표본평균의 분산
은
로 정리된다. 또한
이므로
이다. t-분산의 자유도는 표본크기 n보다 1만큼 작음에 유의해야 한다.
[Def] t-통계(t-statistic)
만약 이 평균 를 갖는 정규분포라면
이다.