05-03 07:38
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science / Statistics] Descriptive Statistics - Sample Statistics 본문

Data Science/Probability & Statistics

[Data Science / Statistics] Descriptive Statistics - Sample Statistics

cinema4dr12 2014. 2. 26. 14:45

Descriptive Statistics - Sample Statistics

표본 평균(Sample Mean)

데이터 세트 \(\bar{x}\)의 표본 평균은 모집단으로부터 추출된 표본 집단의 기하평균이다. 만약 n개의 데이터 세트, \(x_1, x_2,...,x_n\)으로 구성된 표본 평균은


\( \bar{x} = \displaystyle{\frac{\displaystyle{\sum_{i=1}^{n}{x_i}}}{n}} \)


입니다.


표본 평균이 갖는 의미는 다음과 같습니다:

  • 확률변수 X의 랜덤 변수의 기대값 E(X)와 동일한 개념의 "중간값"으로 생각할 수 있습니다.
  • 관찰된 데이터 세트 내에서 미지의 확률분산의 기대값에 대한 추정으로 생각할 수 있습니다.

표본 미디언 (Sample Median)

순서를 정한 데이터 포인트의 "중간값"이다. 만약 관찰된 데이터의 수가 5개이면 미디언은 3번째로 큰 데이터 포인트입니다. 만약 관찰된 데이터의 수가 6개 이면 미디언은 3번째 및 4번째 데이터 포인트의 평균으로 계산합니다.


표본 미디언은 다음과 같은 의미를 갖습니다:

  • 관찰된 데이터 세트 내에서 미지의 확률분산의 미디언에 대한 추정으로 생각할 수 있습니다.
  • 표본 평균과 표본 미디언의 관계는 확률분포의 기대값과 미디언과 관계와 유사합니다.
    • 양의 skewness: 표본 평균 > 표본 미디언
    • 음의 skewness: 표본 평균 < 표본 미디언

표본 절삭 평균 (Sample Trimmed Mean)

표본 절삭 평균은 가장 큰 값들 중 몇 개와 가장 작은 값들 중 몇 개를 삭제하고 나머지 값들로 평균값을 구한 것입니다. 상위 10%와 하위 10%를 제외하는 것이 일반적입니다.

일반 표본 평균과 비교했을 때 표본 절삭 평균의 장점은, 전체 평균값이 데이터 세트의 양 끝단 값에 민감하지 않게 된다는 것입니다.

표본 모드 (Sample Mode)

특정 데이터 값이 얼마나 자주 관찰되었는가를 의미합니다.

표본 분산 (Sample Variance)

표본 분산 \(s^2\)는 다음과 같이 정의됩니다:


\( s^2 = \displaystyle{\frac{ \displaystyle{\sum_{i=1}^{n}{(\bar{x} - x_i)^2}} } {n-1}} \)


여기서 n 대신 n-1이 사용된 이유는 추후 설명하도록 하겠습니다.


\( \displaystyle{\sum_{i=1}^{n}{(\bar{x}-x_i)^2}} = \displaystyle{\sum_{i=1}^{n}{( \bar{x}^2 - 2\bar{x}x_i + x_i^2 )}} = \displaystyle{ \sum_{i=1}^{n}{\bar{x}^2} - 2\bar{x}\sum_{i=1}^{n}{x_i} + \sum_{i=1}^{n}{x_i^2}  }  \)


이며,


\( \displaystyle{\sum_{i=1}^{n}{x_i} = n \bar{x}} \)


이므로


\( \displaystyle{ \sum_{i=1}^{n}{(\bar{x}-x_i)^2} = \sum_{i=1}^{n}{x_i^2} - n\bar{x}^2 } \)


이 됩니다. 즉,


\( s^2 = \displaystyle{ \frac{\sum_{i=1}^{n}{x_i^2} - n \bar{x}^2}{n-1} } \)


으로도 표현할 수 있습니다.

표본 퀀타일 (Sample Quantile)

p번째 표본 퀀타일은 p보다 작은 값을 취하는 표본의 p 만큼의 비율이며, p보다 큰 값을 취하는 (1-p) 만큼의 비율이다. 통상적으로 퀀타일보다 퍼센타일(percentile)이라는 표현을 더 자주 사용합니다.

특히 표본 미디언은 표본의 50퍼센타일이며, 상위 및 하위 표존 퀀타일은 각각 75퍼센타일 및 25퍼센타일입니다.

박스 플롯 (Box Plot)

박스 플롯은 표본 미디언, 상위 및 하위 표본 퀀타일, 최소 및 최대 데이터 값을 도식으로 표현하는 데이터 표현법입니다.




Comments