Ch4. 베이지안 추론 내용 정리

흑흑흑 너무 어렵쟈나 ! 🥲

통계추론의 목적

이 어려운 통계를 공부하는 이유는 1) 결국 중요한 정보 (모수) 를 알아내기 위해서 ! ex. 어느 날 길냥이를 길 가다가 3회 마주쳤음 ! 🐱 -> 알아내고 싶은 모수 : “그래서 평균적으로 24시간동안 고양이를 얼마나 마주치지?” 2) 이 알아낸 정보가 얼마나 정확한지 알아내야지 마무으리까지 완벽 (ex. 정말 고양이를 일반적으로 하루에 1회 정도 마주칠 수 있어? 🤔 신뢰도가 얼마나 돼?)

우도함수 (likelihood function) = 가능도 함수

: 어떠한 모수 Θ 가 주어졌을 때 , 해당 데이터를 관측할 수 있는 확률은 ? P(X|Θ1) vs P(X|Θ2) … Likelihood Function 이므로 L(Θ|x) 로 표기. (함수 L(Θ|X) = P(X|Θ) Maximum Likelihood Estimator : 각 Θ 마다 구해지는 가능도 중 제일 높은 가능도 (; 해당 Θ 로 모수를 예상했을 때 주어진 관측치가 나올 가능성 이 가장 높다) 를 가지는 Θ를 추측하는 것.

베이즈 정리는 우도함수와 사전확률 값을 가지고 지지고 볶아서 구해진다 ! 🍲

결국 구하고 싶은 것 (Posterior) ; P(Θ|X) “관측한 결과 고양이를 하루에 3회 마주쳤다. 그런데 운이 좋았던 날이었을 수도 있잖아 ? 그러니까 평균적으로는 하루동안 돌아다니면고양이를 얼마나 마주칠 수 있어?” P(Θ|X)=P(X|Θ) P(Θ) / P(X) 여기서 P(X|Θ) 는 가능도함수 , P(Θ) 는 사전확률, P(X) 는 주변확률 따라서, 다시 정리해보면 Posterior=Likelihood Function * Prior / Marginal

충분통계량, 최소충분통계량, 보조통계량

후 나를 머리 아프게 한 용어들 정리하기 ~! 🤦🏻‍♀️

  • 충분통계량 T(X)
    기존 데이터 X 를 간추린 -> T(X) 가 원 데이터를 간추렸음에도 모수의 정보를 충분히 담고 있다면, 충분통계량 이라고 한다. 수식으로 표현하면 ? A statistic T(x) is __sufficient statistic_ for Θ if and only if _f(X|Θ)=f(T(X)|Θ) f(X|T(X))_ 근데 이거 이해하기 넘므 어렵쟈나 ?! 뭔가 정석의 정의는 이것인 것 같은데 교수님 필기에 하나 더 써져있었다. _T(x) is a __sufficient statistic_ for Θ if f(X|Θ)=g(T(X),Θ)h(X) for some functions g and h_ => 즉 likelihood function 값이 어떠한 원 데이터를 압축한 통계량에 임의의 수식을 지지고 볶은 값으로 구해질 수 있다면 해당 통계량은 충분통계량 ! 두 번째 수식으로 충분통계량을 정의했을 때 예시 : 정규분포에서 T(X) = X1 + X2 + … Xn 이라고 두면 특정 모수인 평균(Θ1) 과 분산(Θ2) 이 주어졌을 때 해당 X1, X2,…Xn 의 확률분포 를 구하기 위해서 이 모수를 정규분포 공식에 넣고 전개해보면 -> f(X1,X2,…Xn|Θ1,Θ2) = (X1+X2+…Xn) 를 포함하는 어쩌고 저쩌고 수식이 나온다. (정규분포 공식 못 외움 🙄) 즉, 해당 T(X) 는 모수에 대한 충분 통계량이다.

그리고 충분통계량의 정의에 따라서 likelihood function ; P(X|Θ) 의 X 부분을 T(X) 로 대체할 수 있다 !

그리고 첫 번째 정의에 의해서, 두 서로 다르게 추측한 모수 Θa,Θb 에 대한 우도비는 f(T(X)|Θa) / f(T(X)|Θb) 로 간단하게 구할 수 있게 된다 !

  • 최소 충분통계량
    여러 충분통계량들 중 차원이 제일 작은 것. 수식으로 표현하면 ? 이것도 엄청나게 정의가 많이 있던데 그나마 이해가 갔던 것 두 개를 가져왔다. if T,U1,…Um are all available sufficient statistics for Θ, T=g1(U1)=g2(U2)=…=gm(Um), then T is minial sufficient

A statistic defines a partition of the sample space of (X1,…,Xn) into classes satisfying T(X1,…,Xn) = t for different values of t. If such a partition puts the sample __x=_ (x1,x2,…,xn) and _y=_(y1,y2,…yn) into the same class if and only if L(Θ;x) / L(Θ;y) does not depend on Θ, then T is minimal sufficient for Θ_

두 번째 정의에 입각하여 최소충분통계량인지를 구한 예시

출처 : minimal sufficient statistics

캡처

  • 보조통계량
    X 에서 끄집어낼 수 있는 여러 통계량 중 모수와 무관하여 모수에 대한 정보를 전혀 가지고 있지 않은 통계량 보조통계량은 그래도 그나마 쉽게 이해할 수 있었다. ex. 균일분포 예시 : 고속버스가 서울에서 천안까지 가는데 걸리는 시간이 70분에서 90분이라면 X가 70<X<90 인 범위에선 공평하게 1/20 확률을 가짐. 이 때 평균은 80분 정도 걸림 ! (모수) , 그런데 90-70, 즉 range 는 해당 모수 80 을 알아내는 데 아무런 개입도 하지 않음 ! 따라서 균일분포에서 range 는 보조통계량이라고 할 수 있다. 😀

베이지안 구간 추정 vs 빈도주의에서 구간 추정

빈도주의 관점에서 신뢰도 95% 란 ? 원 데이터로부터 샘플링된 데이터 n 개를 m번 반복해서 뽑았을 때 (즉 샘플 개수 m개,각 샘플 당 들어있는 데이터 수 n개), 각 표본 (;샘플) 마다 해당 샘플 내 n개의 데이터를 미뤄보았을 때 모평균의 범위는 ~ 쯤일꺼야 하는 범위를 구할 수 있다. 샘플 1로부터 : a< 모평균의 범위 <b 샘플 2로부터 : c< 모평균의 범위 <d … 이 때 어떠한 샘플로부터 나온 범위는 모평균이 실제로 여기 해당할 수도 있고, 어떠한 다른 샘플에선 모평균이 존재하는 범위를 아예 잘못 측정했을 수도 있다. => 신뢰도 95% 란, 이 수많은 샘플 중 95% 정도에 포함되는 모평균의 범위이다. 즉 무수히 많은 표본 m개 중 95%는 해당 범위가 모평균의 범위가 맞다고 측정된 범위인 것이다.

베이지안에서 신뢰도 95% 란 ? 베이지안에선 애초에 Posterior 의정의가 P(Θ|X) 이다. 따라서 빈도주의처럼 복잡하게 생각할 필요도 없이 해당 posterior 확률분포의 95% 에 해당하는 theta 값의 범위를 의미한다. “주어진 데이터 X 가 정확히 어떠한 값인지는 모르나 해당 신뢰구간에 속하는 Θ 를 따를 확률이 95%야”

최대사후구간 (HPD)

: 베이지안에서 신뢰도 95% 인 영역을 구하라고 할 때, 어떻게 영역을 구하냐에 따라서 뒤 꼬리 영역 5%를 자른 구간을 구할 수도 있고, 앞 꼬리 영역 2.5%, 뒤 꼬리 영역 2.5% 를 자른 구간을 구할 수도 있다. 가장 Best 는 가능한한 P(Θ|X) 의 값이 높게 나오는 Θ 들을 많이 뽑는 것일 것이다. -> 최대사후구간 ;주어진 신뢰도를 만족하는 베이지안 구간 중 최대한 사후확률이 높은 Θ들을 모아놓은 것

정확히 HPD 를 계산하기 위해서는 가상의 수평막대를 Posterior 함수의 최대값에서부터 점차 아래로 내리면서 만나는 점들 사이의 면적이 최초로 해당 신뢰도 % 와 동일하거나 클 때의 구간을 구해야 한다. 이렇게 하려면 다양한 x=a,x=b 인 지점에서의 적분을 통한 영역 구하기가 포함되므로 계산이 복잡하다. 따라서 근사적으로 HPD 구간을 구할 수 있다.

  • A) (α/2,1-α/2) 사후분위수를 사용하여서 자름. ex. 95% 신뢰구간 : 앞 꼬리 2.5, 뒤 꼬리 2.5 를 자른 영역 범주
  • B) 격자점을 이용한 근사 이건 겨수님이 같이 제공하신 코드를 보면서 이해할 수 있었다. 주의 : Θ 값 유한개 ! 이 가정을 까먹지 않아야지 해당 코드가 이해가 갔다.
N=1001 #생산할 Θ 값 개수
theta=seq(-3,3,length=N) #예시에 쓸 Θ 후보 1001개 
prob=dnorm(theta,0.3,0.5) #해당 Θ별 posterior 값
prob=prob/sum(prob) #정규화 
alpha=0.05 #신뢰도 95%
level=1-alpha #신뢰도 
HPDgrid=function(prob,level=0.95){
	prob.sort=sort(prob,decreasing=T) #HPD를 구하기 위해서 posterior 값이 높은 것부터 정렬
	M=min(which(cumsum(prob.sort)>=level))
#개수가 이산개이므로! 시그마 합으로 더해나감.(적분 X),누적 합이 95%이상이 되는 최초의 posterior 값의 인덱스 M 
	height=prob.sort[M] #해당 posterior 값 
	HPD.index=which(prob>=height) #해당 posterior 값;다른 순위가 더 높은 모수들의 posterior 과 다 누적했을 때 신뢰도 95%를 보장하는 최초의 모수의 posterior 보다 값이 큰 posterior 들의 index를 구해줌
	HPD.level=sum(prob[HPD.index])
	res=list(index=HPD.index,level=HPD.level)
	return(res)
}
HPD=HPDgrid(prob,level)
plot(theta[HPD$index],rep(1,length(HPD$index)))
HPDgrid.hat=c(min(theta[HPD$index]),max(theta[HPD$index]))
print(theta[HPD$index])

  • C) Θ 의 사후표본 이용
    n개의 Θ 에 대한 posterior 값이 있는 경우, 오름차순 정렬. n개 중 95개를 포함하는 여러가지 구간 범주 경우의 수를 구해줌. ex. 구간 후보 1: [Θ1 ~ Θ95] 해당 구간 후보들 중 길이가 가장 짧은 구간을 근사적 HPD 구간으로 간주.

여러 피드백을 통해 발전된 원칙들

기존 빈도주의 통계의 문제점 : 해당 관측치만을 보는데, 관계없는 지나치게 많은 것들이 관여하는 수식들. => Fisher 의 조건부 원리 : Inference should be made conditionally on an appropriate ancillary statistics (보조통계량)

충분 원리 : 추론은 최소충분통계량에 의존한다.

조건부 원리 + 충분원리 -> 우도 원리 통계적 실험에서 관측치 X 가 가지고 있는 Θ의 추론에 관한 정보는 우도함수에 모두 포함되어있다 !