경제
이항 분포와 초기하 분포의 관계
개강한 공대생
2024. 9. 29. 17:27
초기하 분포에서 첫 번째 시도에서 성공할 확률 p는 r/N이다.
여기서 r은 성공으로 분류된 요소의 수, N은 전체 모집단의 크기다.
만약 모집단의 크기 N이 매우 커지면, 한 번 뽑을 때 성공 확률의 변화가 거의 없게 된다.
이때는 초기하 분포가 이항 분포처럼 행동하기 시작한다.
예를 들어, 공이 2개 든 상자에서 초기하 분포를 사용한다고 하면, 첫 번째 공을 뽑은 후에 두 번째 공을 뽑을 확률은 이미 거의 정해져 있다.
첫 번째 공을 뽑고 나면 남은 공은 하나뿐이니까 확률이 크게 달라지지 않겠지?
하지만 공이 1000개 있는 상자에서 한 개를 뽑는 상황을 생각해 보자. 이때 첫 번째 공을 뽑았다고 해서 다음 공을 뽑을 확률이 극적으로 변하지는 않는다.
1000개 중에서 1개를 뽑는 확률과 999개 중에서 1개를 뽑는 확률은 사실상 거의 같기 때문이다.
이렇게 모집단이 너무 크면, 복원해서 뽑든, 복원 없이 뽑든 큰 차이가 없어져서 이항 분포처럼 된다는 것이다.
기대값은 이항 분포와 초기하 분포 모두 거의 같다고 볼 수 있다.
성공 확률만 같다면 기대값도 같다.
다만, 분산은 다르다!
초기하 분포는 복원 없이 뽑는 상황이니까, 샘플이 줄어들수록 남은 항목들의 확률이 계속 변하게 된다.