Cross Entropy, KL Divergence

Entropy

레시피 책에서 ‘감자’라는 단어가 나올 확률 P(감자) = 0.5

레시피 책에서 ‘마우스’라는 단어가 나올 확률 P(마우스) = 0.001 일 때, 각 단어를 bit로 표현한다고 가정해보자.

할당할 수 있는 bit가 0과 01010101밖에 없을 때, 정보 전달의 효율성 측면에서 봤을 때 당연히 자주 나오는 단어에 0을 할당하는 것이 옳은 이치일 것이다.

Untitled

그렇다면 X축이 ‘확률’ / Y축이 ‘길이’인 -Log(X) 꼴을 가진다.

이를 테면 레시피에서 나올 확률이 적은 단어일수록 길이가 길어지기 때문이다.

따라서 기댓값은 $E[X] =-\sum P(x) (-log_2 P(x))$ 이다. (밑이 2인 이유는 bit로 표현하기 때문)(연속형이라면 자연로그가 된다.)

바로 이 기댓값이 Lower Bound가 된다. 이거보다 자원을 적게 쓰면서 정보를 표현할 수 없는 Lower Bound!