일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- probability
- 빅 데이터
- 데이터 과학
- 김양재 목사님
- openCV
- 김양재
- 인공지능
- Machine Learning
- 통계
- 우리들교회
- No SQL
- MongoDB
- Deep learning
- 빅데이타
- c++
- 빅데이터
- 주일설교
- 몽고디비
- R
- 확률
- 빅 데이타
- Artificial Intelligence
- 김양재 목사
- Big Data
- WebGL
- nodeJS
- data science
- Statistics
- 딥러닝
- node.js
- Today
- Total
목록Data Science (257)
Scientific Computing & Data Science
by Geol Choi | February 1, 2014find 쿼리는 지금까지 다룬 내용에서 숱하게 많이 사용된 쿼리이다.가장 기본적인 쿼리 중 하나로서 검색 조건에 대해 좀 더 알아보도록 하겠다.우선 다음과 같이 데이터를 준비하자.> db.customers.drop() > db.customers.insert({name: "gchoi", age: 37, birthday: "08/22", email: "cinema4dr12@gmail.com"}) > db.customers.insert({name: "jmpark", age: 25, birthday: "04/02", email: "raspberry@gmail.com"}) > db.customers.insert({name: "tjkwak", age: 32, ..
두 개의 확률 변수 X1과 X2에 대하여 다음 관계식이 성립된다:또한, 분산에 대하여이며,X1과 X2가 상호 독립 확률 변수일 때 Cov(X1,X2)=0 이므로가 성립된다.
X가 확률 변수이며 어떤 수 에 대해 Y = aX + b 이면,이며,가 성립된다. [Proof]
두 개의 확률 변수 X와 Y에 대한 공분산(Covariance)은 다음과 같이 정의됩니다: \(\mathrm{Cov}(X,Y) = \mathrm{E}( (X-\mathrm{E}(X)) (Y - \mathrm{E}(Y)) ) = \mathrm{E}(XY) - \mathrm{E}(X) \mathrm{E}(Y) \) 공분산 값은 양수 또는 음수 또는 0(확률 변수가 상호 독립일 경우)을 갖습니다. 두 개의 확률 변수에 대한 의존성을 나타내는 지표는 상관관계(Correlation)이며, 다음과 같이 정의됩니다: \( \mathrm{Corr}(X,Y) = \displaystyle{\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}}} \) 이며, -1과..
두 개의 확률 변수 X, Y에 대해 공동 확률 밀도 함수(joint probability density function)이 두 개의 한계 분포의 곱으로 표현될 때 이 두 확률 변수를 서로 독립이라고 정의한다. 즉, 이산 확률 분포에 대해이며, 연속 확률 분포에 대해이다.
확률 변수 Y에 대한 확률 변수 X의 조건부 분포는 Y의 값이 알려져 있다는 가정 하에 확률 변수 X의 확률적 속성을 나타낸다.즉, 이산 확률 분포에 대해서이며, 연속 확률 분포에 대해서는이다. 이 때 는 확률 변수 Y의 한계 분포이다. 한계 분포와 조건부 분포에 대한 차이를 이해하는 것은 매우 중요하다.확률 변수 X에 대한 한계 분포는 확률 변수 Y에 대해 알려진 것이 없는 경우에 있어 유용한 분포이며, 확률 변수 Y의 값이 특정값 y의 조건 하에 확률 변수 X에 대한 조건부 분포는 확률 변수 Y값이 y로 알려진 경우에 유용하다.
두 개의 확률 변수 X, Y의 다변수 분산에 대해 만약 한 개의 확률 변수에 대해서만 관심이 있을 경우 한 가지 변수에 대해서만 고려하는 것이 적합하다.이를 "한계 확률 분포(marginal probability distribution)"이라고 하며 다른 확률 변수에 대한 합(이산 확률 분포) 또는 적분(연속 확률 분포)으로 표현한다.예를 들어 두 개의 이산 확률 변수 X와 Y에 대해 X의 한계 분포의 확률값은이며, 연속 확률 변수에 대해서는이다.
지금까지는 단일 확률 변수 X에 대한 분포를 알아보았다. 이번에는 확률 변수가 두 개인 경우에 대해 알아보도록 하겠다.단일 확률 변수일 경우와 마찬가지로 두 개의 확률 변수 X, Y에 대한 확률값 은 을 만족한다. Joint probability density function F(x,y)에 대해서도 다음을 만족한다. 마찬가지로 누적 확률 분포 함수는 이산 확률 변수에 대해이며, 연속 확률 변수에 대해서는이다.
확률 변수의 Quantile은 확률 변수의 분산 수준에 대한 정보를 제공하는 부가적 측정 지표이다.누적 분포 함수 F(x)를 갖는 확률 변수 X의 p번째 quantile은 다음과 같이 정의된다:이는 또한 확률 변수의 percentile이라고 불리운다. * Upper quantile F(x) = 0.75가 되는 x* Lower quantile F(x) = 0.25가 되는 x 분산의 50th percentile을 중간값(median value)라고 한다.
Chebyshev 부등식은 확률 분포의 분산과 표준편차에 대한 중요성을 강조하는 일반적 결과로 해석할 수 있습니다. 이는 기대값과 분산에 따라 일반적 확률의 범위를 알려주는 도구입니다. 즉, \(c \ge 1\)에 대하여, \( P(\mu - c \sigma \le X \le \mu + c \sigma) \ge 1 - \displaystyle{\frac{1}{c^2}} \) 예를 들어, c = 2 라고 하면, \( P(\mu -2 \sigma \le X \le \mu + 2 \sigma) \ge 0.75 \)이며, 이 분포에 대해 어떤 확률 변수 X를 선택하였을 때 이 범위에 있을 확률은 75%임을 의미합니다. Chebyshev 부등식은 확률 변수의 정확한 분포에 상관없이 이러한 결과가 참이라는 것이며 ..