Definition
확률변수 X의 관측값을 바탕으로 모수 θ 에 대한 정보를 요약하는 데 사용되는 개념이다

함수 T(X)가 주어진 모수 θ 에 대한 가족 {fθ(x)}에 대해 충분 통계량이라고 할 때, 이는 X가 T(X)가 주어졌을 때 θ 와 독립이라는 의미이다
즉, T(X)를 알고 있다면, 추가적으로 X를 알아내는 것이 θ 에 대한 정보를 제공하지 않는다는 것을 의미한다
함수 T(X)가 모수 θ에 대한 확률변수 X의 분포 fθ(x)에 대해 충분하다는 것은,
모든 θ에 대해, X의 조건부 분포가 T(X)에만 의존하고 θ에는 의존하지 않는다는 것을 의미한다
충분 통계량의 중요성
충분 통계량의 개념은 통계적 추론에서 매우 중요하다
충분 통계량을 사용하면, 모수 θ 에 대한 추론을 위해 원래 데이터 X 전체를 사용하지 않고도, T(X)라는 요약된 정보만을 사용할 수 있다
이는 데이터의 차원을 줄이는 효과가 있으며, 계산을 단순화하고 효율적으로 만든다
예를 들어, 베르누이 분포에서의 성공 횟수는 성공 확률 θ 에 대한 충분 통계량이다
n번의 독립적인 시행에서의 성공 횟수 T(X)는 성공 확률 θ 에 대한 모든 정보를 담고 있으며, 개별 시행의 결과보다는 성공 횟수만 알면 θ 에 대한 추론을 할 수 있다
θ → X → T(X)도 항상 참이다
Example

(X_1, X_2, ..., X_n)이 {0,1} 중에서 값을 가지는 동일하게 분포된(i.i.d., independent and identically distributed) 동전 던지기 시퀀스라고 하자
여기서 각 Xi는 동전 던지기의 결과를 나타내며, Xi = 1은 앞면이 나오는 사건, Xi = 0은 뒷면이 나오는 사건을 의미한다
이 시퀀스에서 알려지지 않은 모수 θ 는 앞면이 나올 확률, 즉 Pr(Xi = 1)을 나타낸다
여기서 각 동전 던지기는 베르누이 시행으로 모델링될 수 있으며, 각 시행의 성공 확률(앞면이 나올 확률)은 θ 이다

충분 통계량(Sufficient Statistic)의 개념은 주어진 샘플에 기반한 모수의 추정에 있어서,
원래의 데이터셋을 축약한 어떤 통계량이 원래의 데이터셋만큼이나 많은 정보를 제공한다는 것이다
즉, 충분 통계량을 통해 모수에 대한 추정을 수행했을 때, 원래 데이터셋을 사용하여 추정하는 것과 동일한 결과를 얻을 수 있다
n번의 독립적인 베르누이 시행에서 1이 나타나는 횟수에 대해 관심이 있으며, 각 시행에서 1이 나타날 확률은 θ 이다
따라서, 각 Xi는 {0,1} 중 하나의 값을 가질 수 있으며, (X1, X2, ..., Xn)은 θ 를 파라미터로 하는 i.i.d. 베르누이 분포를 따른다

"Given (T), all sequences with many 1's are equally likely and independent of θ "라는 문장은,
충분 통계량 T(여기서는 1의 총합)가 주어졌을 때, 모든 가능한 시퀀스(동전 던지기 결과)가 θ (앞면이 나올 확률)와 독립적이며, 동일한 T값을 가지는 한 같은 확률로 발생한다는 것을 의미한다
이는 충분 통계량의 성질과 밀접하게 관련되어 있다
이를 이해하기 위해, n번의 베르누이 시행에서 k개의 1이 나오는 특정 시퀀스의 확률을 고려할 수 있다
이 시퀀스의 확률은 ( θ^k(1-θ)^{n-k})로 주어진다
그러나 특정 T=k 값에 대해, k개의 1과 n-k개의 0을 포함하는 모든 시퀀스는 같은 확률을 갖는다
예를 들어, n=3이고 T=2라고 가정해 보자
이 경우 가능한 시퀀스는 (011, 101, 110)입니다. 여기서 T=2가 주어지면, 이 세 시퀀스는 모두 동일한 확률로 나타난다
이러한 동일성은 θ 의 값과 무관하며, 주어진 T 값에 대해 k개의 1을 포함하는 모든 시퀀스에 공통적이다
n=3 의 의미는 동전이 3개라는 의미이다
T=2 의 의미는 총 합이 2라는 의미이다 < 0+1+1 = 2 >

따라서 통계량이 주어지면 ( X들의 합, 위 식에서 중간에 위치함 ) θ와 (X1, X2, ..., Xn)은 독립이다
'AI > AI정보이론' 카테고리의 다른 글
| [AI정보이론] Data Compression - 기댓값 길이, Kraft Inequality (0) | 2024.05.28 |
|---|---|
| [AI정보이론] Fano's Inequality (0) | 2024.05.03 |
| [AI정보이론] Log Sum Inequality, Data-Processing Inequality (0) | 2024.05.03 |
| [AI정보이론] Jensen's Inequality (0) | 2024.05.03 |
| [AI정보이론] Chain Rule for Entropy (0) | 2024.05.03 |