일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- WebGL
- 데이터 과학
- node.js
- 확률
- 빅데이타
- 김양재 목사님
- Machine Learning
- 빅 데이터
- 빅 데이타
- Statistics
- nodeJS
- probability
- Big Data
- MongoDB
- openCV
- 빅데이터
- 우리들교회
- 인공지능
- Deep learning
- 딥러닝
- Artificial Intelligence
- No SQL
- data science
- 통계
- 몽고디비
- 김양재 목사
- c++
- 주일설교
- R
- 김양재
- Today
- Total
Scientific Computing & Data Science
[Data Science / Statistics] Descriptive Statistics - Sample Statistics 본문
[Data Science / Statistics] Descriptive Statistics - Sample Statistics
cinema4dr12 2014. 2. 26. 14:45Descriptive Statistics - Sample Statistics
표본 평균(Sample Mean)
데이터 세트 \(\bar{x}\)의 표본 평균은 모집단으로부터 추출된 표본 집단의 기하평균이다. 만약 n개의 데이터 세트, \(x_1, x_2,...,x_n\)으로 구성된 표본 평균은
\( \bar{x} = \displaystyle{\frac{\displaystyle{\sum_{i=1}^{n}{x_i}}}{n}} \)
입니다.
표본 평균이 갖는 의미는 다음과 같습니다:
- 확률변수 X의 랜덤 변수의 기대값 E(X)와 동일한 개념의 "중간값"으로 생각할 수 있습니다.
- 관찰된 데이터 세트 내에서 미지의 확률분산의 기대값에 대한 추정으로 생각할 수 있습니다.
표본 미디언 (Sample Median)
순서를 정한 데이터 포인트의 "중간값"이다. 만약 관찰된 데이터의 수가 5개이면 미디언은 3번째로 큰 데이터 포인트입니다. 만약 관찰된 데이터의 수가 6개 이면 미디언은 3번째 및 4번째 데이터 포인트의 평균으로 계산합니다.
표본 미디언은 다음과 같은 의미를 갖습니다:
- 관찰된 데이터 세트 내에서 미지의 확률분산의 미디언에 대한 추정으로 생각할 수 있습니다.
- 표본 평균과 표본 미디언의 관계는 확률분포의 기대값과 미디언과 관계와 유사합니다.
- 양의 skewness: 표본 평균 > 표본 미디언
- 음의 skewness: 표본 평균 < 표본 미디언
표본 절삭 평균 (Sample Trimmed Mean)
표본 절삭 평균은 가장 큰 값들 중 몇 개와 가장 작은 값들 중 몇 개를 삭제하고 나머지 값들로 평균값을 구한 것입니다. 상위 10%와 하위 10%를 제외하는 것이 일반적입니다.
일반 표본 평균과 비교했을 때 표본 절삭 평균의 장점은, 전체 평균값이 데이터 세트의 양 끝단 값에 민감하지 않게 된다는 것입니다.
표본 모드 (Sample Mode)
특정 데이터 값이 얼마나 자주 관찰되었는가를 의미합니다.
표본 분산 (Sample Variance)
표본 분산 \(s^2\)는 다음과 같이 정의됩니다:
\( s^2 = \displaystyle{\frac{ \displaystyle{\sum_{i=1}^{n}{(\bar{x} - x_i)^2}} } {n-1}} \)
여기서 n 대신 n-1이 사용된 이유는 추후 설명하도록 하겠습니다.
\( \displaystyle{\sum_{i=1}^{n}{(\bar{x}-x_i)^2}} = \displaystyle{\sum_{i=1}^{n}{( \bar{x}^2 - 2\bar{x}x_i + x_i^2 )}} = \displaystyle{ \sum_{i=1}^{n}{\bar{x}^2} - 2\bar{x}\sum_{i=1}^{n}{x_i} + \sum_{i=1}^{n}{x_i^2} } \)
이며,
\( \displaystyle{\sum_{i=1}^{n}{x_i} = n \bar{x}} \)
이므로
\( \displaystyle{ \sum_{i=1}^{n}{(\bar{x}-x_i)^2} = \sum_{i=1}^{n}{x_i^2} - n\bar{x}^2 } \)
이 됩니다. 즉,
\( s^2 = \displaystyle{ \frac{\sum_{i=1}^{n}{x_i^2} - n \bar{x}^2}{n-1} } \)
으로도 표현할 수 있습니다.
표본 퀀타일 (Sample Quantile)
p번째 표본 퀀타일은 p보다 작은 값을 취하는 표본의 p 만큼의 비율이며, p보다 큰 값을 취하는 (1-p) 만큼의 비율이다. 통상적으로 퀀타일보다 퍼센타일(percentile)이라는 표현을 더 자주 사용합니다.
특히 표본 미디언은 표본의 50퍼센타일이며, 상위 및 하위 표존 퀀타일은 각각 75퍼센타일 및 25퍼센타일입니다.
박스 플롯 (Box Plot)
박스 플롯은 표본 미디언, 상위 및 하위 표본 퀀타일, 최소 및 최대 데이터 값을 도식으로 표현하는 데이터 표현법입니다.