일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- WebGL
- 주일설교
- 김양재 목사
- 빅데이타
- 빅 데이타
- 딥러닝
- c++
- R
- 우리들교회
- No SQL
- MongoDB
- 김양재 목사님
- nodeJS
- Big Data
- Deep learning
- Statistics
- node.js
- 확률
- 통계
- 데이터 과학
- 빅데이터
- 빅 데이터
- probability
- 몽고디비
- 김양재
- 인공지능
- data science
- Artificial Intelligence
- openCV
- Machine Learning
- Today
- Total
목록통계 (47)
Scientific Computing & Data Science
[Definition] 모집단 / 표본 / 임의 표본 / 통계학적 추론모집단(population)은 특정 확률 분포로부터 얻을 수 있는 가능한 관찰결과로 구성된다. 표본(sample)은 실험자가 측정하거나 알려지지 않은 확률 분포를 관찰하는데 사용되는 모집단의 특정 부분집합이다. 임의 표본(random sample)은 모집단으로부터 임의로 선택된 샘플의 요소이며, 이 과정은 종종 표본이 모집단의 특성을 잘 반영한다는 것을 확인하기 위해 사용된다.통계학적 추론(statistical inference)이란, 모집단으로부터 추출된 표본을 이용하여 데이터 분석을 통해 확률 밀도 함수 등과 같은 특성을 분석하는 방법을 의미한다. 다음 그림은 확률 이론과 통계학적 추론과의 관계를 설명하고 있다.[그림 1.] 확률 ..
R은 S와 S-Plus 이후에 등장한 오픈 소스 통계 해석용 환경이다. S 언어는 1980년대 후반 AT&T 연구소에서 개발되었다. R 프로젝트는 1995년 뉴질랜드의 Auckland 대학교 통계학과의 Robert Gentleman과 Ross Ihaka에 의해 시작되었으며 이들의 이름을 앞자를 따서 R 프로젝트로 명명되었다. 이 프로젝트는 급속도로 많은 사람들의 관심을 끌게 되었으며, 현재 R 코어 개발 팀과 전세계의 자원 개발자들에 의해 유지되고 있다. R 프로젝트 웹페이지는 R에 대한 메인 정보 사이트이다. 이 사이트에서 소프트웨어, 패키지 및 도큐먼트를 다운로드 할 수 있다.R은 강력한 통계 프로그램이지만 우선적으로 프로그래밍 언어라 할 수 있다. 전세계의 개발자들이 수많은 루틴을 작성하고 있으며,..
[Lognormal 분포] 일 때 확률 변수 X는 파라미터 와 를 갖는 Lognormal 분포를 따른다고 한다.X의 확률 밀도 함수는 에 대하여이며, 이외에 대하여이다. 누적 분포 함수는이며, 기대값과 분산값은 각각및이다. [Chi-Square 분포] 자유도를 갖는 chi-square 분포 X는 과 같이 표현되며 는 독립적 표준 정규 확률 분포이다. 자유도를 갖는 chi-square 분포는 파라미터 및 를 갖는 감마 분포이며 기대값과 분산은 각각 및 이다. [t-분포] 자유도를 갖는 t-분포는으로 표현되며 N(0,1) 및 확률 변수 는 독립적인 분산이다. t-분포는 표준 정규 분포의 모양과 유사하지만 이보다는 약간 더 평평하다. 임에 따라 t-분포는 표준 정규 분포에 가까운 모양이 된다. [F-분포] 및..
중심 극한 정리(Central Limit Theorem)Definition만약 \(X_1,...,X_n\)이 평균값 \(\mu\)와 분산 \(\sigma^2\)을 갖는 동등한 확률 변수라면 이들의 평균 \(\bar{X}\)는 다음과 같이 근사화 될 수 있습니다: \( N \begin{pmatrix} \mu, \displaystyle{\frac{\sigma^2}{n}} \end{pmatrix} \) 이와 유사하게 분포의 합 \(X_1 + \cdot \cdot \cdot + X_n \)은 다음과 같이 근사화 됩니다: \(N(n \mu, n \sigma^2)\)Proof\( E(X_i) = \mu, \ Var(X_i) = \sigma^2, \ 1 \le i \le n \) 이므로 \( E(X_1 + \cdot..
이항분포 B(n,p)의 확률값은 N(np,np(1-p)) 분포로 근사화할 수 있다. 만약 확률 변수 X가 X ~ B(n,p)이면이며,이다. 이러한 근사화는 다음 조건에서 잘 맞는다:
만약 확률변수 Xi ~ N(μ,σ2), 1 ≤ i ≤ n 가 독립 확률 변수라면 이들의 평균는 다음의 분산을 따른다: [Proof]이므로이며,이므로따라서,
서로 독립인 두 개의 정규 확률 변수 X1 ~ N(μ1,σ12) 및 X2 ~ N(μ2,σ22)에 대하여 다음이 성립한다: [Proof] 및 라면이며, 및라면이므로,가 성립된다.
만약 X ~ N(μ,σ2)이며, a와 b가 상수라면 Y = aX + b ~ N(aμ + b, a2σ2)가 성립된다. [Proof]이라면,이며, 또한이라면,이다. 따라서,
[정규분포에 대한 확률 계산]만약 X~N(μ,σ2)이라면이다. 확률 변수 Z는 확률 변수 X의 표준화이다. 확률과 누적분포 함수 간의 관계는 다음과 같다: [Proof]
[Def] 정규분포 정규 또는 가우스 분포 함수는 상태 공간 -∞≤x≤∞의 연속 분포 함수이며, 다음과 같은 확률 밀도 함수로 정의된다:정규 분포의 확률 밀도 함수는 파라미터 μ와 σ2를 가지며 기대값과 분산은 각각및이며 확률 변수 X가 μ와 σ2를 갖는 정규 분포를 따른다고 할 때 다음과 같이 표현한다: [Def] 표준정규분포평균 μ=0과 σ2=1을 갖는 정규분포를 특별히 표준정규분포라하고 확률 밀도 함수 φ(x)는 상태 공간 -∞≤x≤∞에 대하여이다. 누적 확률 분포 함수는이며, 항상 Φ(x)=0.5이다. 정규분포 함수의 대칭으로 인해가 성립된다.