일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Statistics
- 빅데이터
- probability
- nodeJS
- No SQL
- 인공지능
- 몽고디비
- Deep learning
- Machine Learning
- 통계
- 데이터 과학
- 확률
- R
- 주일설교
- 김양재 목사님
- WebGL
- 빅데이타
- node.js
- data science
- 김양재 목사
- openCV
- 빅 데이터
- 우리들교회
- 빅 데이타
- MongoDB
- c++
- Artificial Intelligence
- 김양재
- Big Data
- 딥러닝
- Today
- Total
목록확률 (42)
Scientific Computing & Data Science
두 개의 확률 변수 X, Y의 다변수 분산에 대해 만약 한 개의 확률 변수에 대해서만 관심이 있을 경우 한 가지 변수에 대해서만 고려하는 것이 적합하다.이를 "한계 확률 분포(marginal probability distribution)"이라고 하며 다른 확률 변수에 대한 합(이산 확률 분포) 또는 적분(연속 확률 분포)으로 표현한다.예를 들어 두 개의 이산 확률 변수 X와 Y에 대해 X의 한계 분포의 확률값은이며, 연속 확률 변수에 대해서는이다.
지금까지는 단일 확률 변수 X에 대한 분포를 알아보았다. 이번에는 확률 변수가 두 개인 경우에 대해 알아보도록 하겠다.단일 확률 변수일 경우와 마찬가지로 두 개의 확률 변수 X, Y에 대한 확률값 은 을 만족한다. Joint probability density function F(x,y)에 대해서도 다음을 만족한다. 마찬가지로 누적 확률 분포 함수는 이산 확률 변수에 대해이며, 연속 확률 변수에 대해서는이다.
확률 변수의 Quantile은 확률 변수의 분산 수준에 대한 정보를 제공하는 부가적 측정 지표이다.누적 분포 함수 F(x)를 갖는 확률 변수 X의 p번째 quantile은 다음과 같이 정의된다:이는 또한 확률 변수의 percentile이라고 불리운다. * Upper quantile F(x) = 0.75가 되는 x* Lower quantile F(x) = 0.25가 되는 x 분산의 50th percentile을 중간값(median value)라고 한다.
Chebyshev 부등식은 확률 분포의 분산과 표준편차에 대한 중요성을 강조하는 일반적 결과로 해석할 수 있습니다. 이는 기대값과 분산에 따라 일반적 확률의 범위를 알려주는 도구입니다. 즉, \(c \ge 1\)에 대하여, \( P(\mu - c \sigma \le X \le \mu + c \sigma) \ge 1 - \displaystyle{\frac{1}{c^2}} \) 예를 들어, c = 2 라고 하면, \( P(\mu -2 \sigma \le X \le \mu + 2 \sigma) \ge 0.75 \)이며, 이 분포에 대해 어떤 확률 변수 X를 선택하였을 때 이 범위에 있을 확률은 75%임을 의미합니다. Chebyshev 부등식은 확률 변수의 정확한 분포에 상관없이 이러한 결과가 참이라는 것이며 ..
확률 변수 X의 표준편차(standard deviation)는 분산의 양의 제곱근으로 정의되며, 그리스 문자 σ로 표기된다. 즉,의미적으로는 분산과 같다.
[Def.]확률 변수 X의 분산(variance)는 다음과 같이 정의된다:또는 동등하게, [Proof] [Meaning]분산은 수학적 의미로 확률변수와 이에 대한 기대치의 차이에 대한 제곱의 평균을 의미한다.즉, 같은 평균값을 갖는 확률 분포라도 각 확률 변수와 평균값의 차이가 클수록 분산의 크기가 커지며, 단순하게는 확률변수가 퍼져있는 정도로 이해하면 된다.
연속 확률 변수 \(\mathbf{X}\)의 누적 분포 함수(Cumulative Distribution Function; CDF)는 다음과 같이 정의된다: \( \displaystyle{ F(x) = P(X \leq x) = \int _{-\infty}^{x}{f(y)}dy }\) 역으로 확률 밀도 함수 \(f(x)\)는 누적 분포 함수 \(F(x)\)를 미분하여 계산된다: \(\displaystyle{f(x) = \frac{dF(x)}{dx}}\) 또한 특정 범위의 확률 변수에 대한 확률은 다음과 같다: \(\displaystyle{ P(a \leq X \leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a) = \int _{a}^{b}{f(x)}dx }\)
확률 밀도 함수(Probability Density Function; PDF) \(f(x)\)는 연속 확률 변수의 확률적 속성을 정의하는 함수이며, 다음 두 가지 조건을 만족해야 한다. (1) \(\displaystyle{\int{_{\mathrm{state \ space}}{\ f(x)}dx = 1} }\) (2) \(\displaystyle{\int{_{\mathrm{state \ space}}{f(x)dx} = 1} }\)
누적 분포 함수(Cumulative Distribution Function; CDF) \(F(x)\)를 갖는 연속 확률 변수 \(\mathbf{X}\)의 중간값(Median)은 다음 관계식이 만족되는 \(\mathbf{X}\)를 의미한다. \(F(X) = 0.5\) (1) 일반적으로 이산 문제에서 값을 얻는 것이 불가능하다.중간값은 값의 분포가 한쪽으로 치우쳐지는가를 판단할 수 있는 지표가 되기도 하나, 다음과 같은 결함을 가지고 있다.(2) 값을 찾는 것이 번거롭다. 만약 중간값과 기대값이 일치하는 경우 이를 "대칭 확률 변수"라고 한다.
Expected Value of a Discrete Random Variable확률밀도함수 \(P(X = x_i) = p_i\)를 갖는 이산확률변수의 기대값(Expected Value 또는 Expectation)은 \(\displaystyle{\mathrm{E}(\mathbf{X})} = \sum_{i}{P_i x_i}\)이며, \(\mathrm{E}(\mathbf{X})\)는 확률변수로 취해지는 평균값을 의미한다. 또한 확률변수의 평균이라고도 알려져 있다.Expectation of a Continuous Random Variable확률밀도함수 \(f(x)\)를 갖는 연속 확률 변수의 기대값은 \(\displaystyle{\mathrm{E}(\mathbf{X}) = \int_{\mathrm{state \..