Entropy ( 엔트로피 )
엔트로피는 확률 변수에 의해 생성되는 정보의 불확실성이나 불명확성의 정도를 수치적으로 나타내는 척도이다

위 식은 확률 변수 X가 특정 값 x를 취할 확률을 나타낸다
여기서 합산은 X가 취할 수 있는 모든 값에 대해 이루어진다
엔트로피의 계산에서 사용되는 로그의 밑은 일반적으로 2이며, 이 경우 엔트로피의 단위는 비트(bits)이다
로그의 밑을 2로 사용하면, 엔트로피는 "평균적으로 필요한 최소 비트 수"로 해석될 수 있다
즉, 확률 변수 (X)의 불확실성을 제거하기 위해 평균적으로 필요한 정보의 양을 나타낸다
엔트로피 H(X)의 값이 클수록, 확률 변수 X의 불확실성이 더 크다는 것을 의미하고
H(X)의 값이 작을수록 X의 불확실성이 적으며, 예측하기 더 쉬워진다
예를 들어, 만약 어떤 확률 변수가 오직 하나의 값만을 가질 확률이 100%라면, 그 변수의 엔트로피는 0이다
왜냐하면 해당 변수의 결과는 전혀 불확실하지 않으므로, 추가적인 정보 없이도 결과를 완벽하게 예측할 수 있기 때문이다
만약 확률 변수가 여러 개의 가능한 값들을 동등한 확률로 가진다면, 그 변수의 엔트로피는 최대가 된다
이는 해당 변수의 결과를 예측하기 위해서는 더 많은 정보가 필요하다는 의미이다

H(X)는 위 식으로 변경이 가능하며 log( 1/p(X) )는 x가 발생할 때의 정보량을 나타낸다

H(X)는 0이상의 값을 가지는데 그 이유는 로그함수의 성질과 확률의 정의때문이다
위 로그함수에서 0 < x <= 1 의 범위에서는 y 값이 항상 음수이거나 0이다
그리고 확률 p(x)는 0 <= p(x) <= 1 의 값을 가진다

H(X)의 정의에서 - 를 log와 결합하면 항상 양수이거나 0인값이 나온다
따라서 p(x) 와 log p(x) 의 곱은 양수값과 양수 or 0 의 곱이 되므로 H(X)는 항상 0 이상의 값을 가진다
x 가 1과 0, 2개의 값만을 가진다면 어떻게 될까?

p는 X가 1이 될 확률, ( 1 - p )는 X가 0이 될 확률이다

H(X)의 정의에 따라 모든 값들의 합에 음수부호를 추가하면 위와 같이 나타난다
그래프로 나타내보면 p의 값에 따라 H(p)의 값이 0과 1 사이로 형성되는것을 알 수 있다
Joint Entropy ( 결합 엔트로피 )

두 확률 변수 (X, Y)의 결합 엔트로피 H(X, Y)는 두 변수가 함께 취할 수 있는 모든 값의 조합에 대한 정보량의 기대값을 나타낸다
결합 분포 p(x, y)를 사용하여 정의되며, 이는 (X)와 (Y)가 특정 값의 쌍 (x, y)를 동시에 취할 확률을 의미한다
결합 엔트로피 H(X, Y)는 두 변수 (X)와 (Y)의 결합 분포의 불확실성을 측정한다
불확실성의 측정
H(X, Y)는 (X)와 (Y)가 함께 취할 수 있는 모든 값의 조합에 대한 전체적인 불확실성을 나타낸다
만약 (X)와 (Y)가 완전히 독립적이라면, H(X, Y) = H(X) + H(Y)이 된다
이는 두 변수의 결합된 정보량이 각각의 변수의 정보량의 합과 같음을 의미한다
값의 범위
결합 엔트로피는 0 이상의 값을 가진다
만약 (X)와 (Y)가 완전히 결정적인 관계라면, 즉 한 변수의 값이 다른 하나를 완전히 결정한다면, 결합 엔트로피는 0에 가까워진다
이는 불확실성이 없음을 의미한다
H(X)의 정의에서 변수가 X 1개만 있는 경우에서 X, Y2개로 늘어난 경우라고 생각하면 된다
동전던지기 같은 경우 100원 동전이 1개인 경우 앞면과 뒷면, 2가지의 경우가 존재한다
만약 동전이 100원1개, 500원 1개로 총 2개라면 경우의 수는 4가지가 된다
100원이 앞면일 경우
>> 500원이 앞면이다
>> 500원이 뒷면이다
100원이 뒷면일 경우
>> 500원이 앞면이다
>> 500원이 뒷면이다
위 예시같은 경우 100원을 X로, 500원을 Y로 하게 될 경우 모두 같은 확률인 1/4 이 된다
정보 이론에서는 밑이 2인 로그를 사용하여 정보의 단위로 비트(bit)를 사용한다
하지만, 자연 로그를 사용하는 경우도 있으며, 이때 정보의 단위는 내트(nat)가 된다
Conditional Entropy ( 조건부 엔트로피 )

조건부 엔트로피 H(Y|X)는 한 확률 변수 (X)의 값이 주어졌을 때 다른 확률 변수 (Y)의 불확실성을 측정한다
( 앞의 예시에서 100원과 500원 동전이 1개씩 있을때 100원이 앞면이라고 주어진 경우라고 볼 수 있다 )

조건부 엔트로피같은경우 위 식을 주로 사용한다
조건부 확률 p(y|x)
이는 (X)의 특정 값 (x)가 주어졌을 때 (Y)가 특정 값 (y)를 취할 확률을 의미한다
이 값은 (X)의 값에 따라 달라진다
결합 확률 p(x, y)
이는 (X)와 (Y)가 동시에 특정 값의 쌍 (x, y)를 취할 확률이다
정보량 log p(y|x)
(X=x)가 주어졌을 때 (Y=y)의 조건부 확률의 로그 값이다
값은 해당 사건의 정보량을 나타낸다
조건부 엔트로피의 계산
- 조건부 확률 계산: 먼저, 각 (x) 값에 대해 (Y)가 취할 수 있는 모든 (y) 값에 대한 조건부 확률 p(y|x)을 계산
- 정보량의 가중 평균: 각 (y) 값의 정보량 log p(y|x)에 대해 (X)와 (Y)가 동시에 해당 값의 쌍 (x, y)를 취할 결합 확률
p(x, y)을 가중치로 사용하여 합산 - 합산: 모든 (x)와 (y)에 대해 위의 과정을 수행하고, 결과값에 음수 부호를 적용하여 H(Y|X)를 얻기
불확실성의 측정
H(Y|X)는 (X)의 값을 알고 있을 때 (Y)의 불확실성을 측정한다
즉, (X)의 값이 (Y)에 대해 얼마나 많은 추가 정보를 제공하는지를 나타낸다고 볼 수 있다
값의 범위
조건부 엔트로피는 0 이상의 값을 가질 수 있다
H(Y|X) = 0이면, (X)의 값이 주어졌을 때 (Y)의 값이 완전히 결정된다는 의미이다
즉, (X)가 (Y)에 대한 완전한 정보를 제공한다는 것을 의미한다

'AI > AI정보이론' 카테고리의 다른 글
| [AI정보이론] Sufficient Statistics (0) | 2024.05.03 |
|---|---|
| [AI정보이론] Log Sum Inequality, Data-Processing Inequality (0) | 2024.05.03 |
| [AI정보이론] Jensen's Inequality (0) | 2024.05.03 |
| [AI정보이론] Chain Rule for Entropy (0) | 2024.05.03 |
| [AI정보이론] Relative Entropy, Mutual information (0) | 2024.05.03 |