01-05 13:11
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science / Statistics] Sampling Distributions 본문

Data Science/Probability & Statistics

[Data Science / Statistics] Sampling Distributions

cinema4dr12 2014. 3. 15. 00:35

[Def.]  표본 비율(Sample Proportion)

만약 \(X \sim B(n,p)\)이라면 표본 비율 \(\hat{p}=X/n\)은 근사 분산


\(\hat{p} \sim N \displaystyle{\begin{pmatrix}p, \frac{p(1-p)}{n} \end{pmatrix}}\)


을 갖는다.


[Proof]

\(\mathrm{Var}(\hat{p}) = \mathrm{Var}\displaystyle{\frac{X}{n}} = \displaystyle{\frac{1}{n^2}np(1-p) = \displaystyle{\frac{p(1-p)}{n}}}\)

[Def.] 표준오차(Standard Error)

표준오차 s.e.는 \(\hat{p}\)의 표준편차이며


\(\mathrm{s.e.}(\hat{p}) = \displaystyle{\sqrt{\frac{p(1-p)}{n}}}\)


과 같이 정의된다. 표준오차는 점 추정 \(\hat{p}\)의 "정확도"의 척도를 제공한다. 표준오차의 값이 작을수록 점 추정의 정확도가 더 큼을 의미하는데, p의 실제값에 대한 분산이 더 작기 때문이다.

[Def.] 표본평균(Sample Mean)

만약 \(X_1,...,X_n\)이 평균 \(\mu\) 및 분산 \(\sigma^2\)을 갖는 모집단으로부터의 관찰 세트라면, 중심 극한 정리는 표본평균 \(\hat{\mu} = \bar{X}\)이 다음과 같은 근사 분산을 갖음을 의미한다:


\(\mu = \bar{X} \sim \displaystyle{N\begin{pmatrix}\mu, \frac{\sigma^2}{n}\end{pmatrix}}\)


[Proof]

\(\mathrm{E}(\hat{X} = \mathrm{E}\displaystyle{\frac{X_1+...+X_n}{n}}) = \displaystyle{\frac{1}{n}}[E(X_1)+...+E(X_n)] = \displaystyle{\frac{1}{n}}n\mu = \mu\)


[Proof]


[Def] 표본분산(Sample Variance)

만약 이 평균 와 분산 을 갖는 정규분포라면, 표본분산 은 분산

을 갖는다.

즉, n-1 자유도를 갖는 정규화 카이제곱(chi-square) 확률 변수로 분포된다.

그런데 표준오차가 미지의 분산 에 의존하는 것은 이상하게 들릴 수 있으나 표본분산이 이 문제를 해결하는데 사용될 수 있다. 즉, 미지의 분산 은 t-분산을 이용하여 다음과 같이 제거된다:

표본평균의 분산

로 정리된다. 또한

이므로

이다. t-분산의 자유도는 표본크기 n보다 1만큼 작음에 유의해야 한다.


[Def] t-통계(t-statistic)

만약 이 평균 를 갖는 정규분포라면

이다.

Comments