Perplexidade

Estatística
  • v
  • d
  • e

Em teoria da informação, a perplexidade é uma medida de quão bem uma distribuição de probabilidade ou modelo de probabilidade prevê uma amostra. Pode ser usada para comparar modelos de probabilidade. Uma baixa perplexidade indicada que a distribuição de probabilidade é boa em prever a amostra.[1]

Perplexidade de uma distribuição de probabilidade

A perplexidade de uma distribuição de probabilidade discreta p {\displaystyle p} é definida como:

2 H ( p ) = 2 x p ( x ) log 2 p ( x ) , {\displaystyle 2^{H(p)}=2^{-\sum _{x}p(x)\log _{2}p(x)},}

em que H ( p ) {\displaystyle H(p)} é a entropia (em bits) da distribuição e x {\displaystyle x} varia sobre os eventos, ou seja, a perplexidade é igual a 2 elevado à entropia ou, mais precisamente, 2 elevado à entropia cruzada, definição esta usada frequentemente na comparação empírica de modelos probabilísticos.

A perplexidade de uma variável aleatória X {\displaystyle X} pode ser definida como a perplexidade da distribuição sobre seus possíveis valores x {\displaystyle x} .

No caso especial em que p {\displaystyle p} modela um dado honesto de k {\displaystyle k} -faces (uma distribuição uniforme sobre k {\displaystyle k} eventos discretos), sua perplexidade é k {\displaystyle k} . Uma variável aleatória com perplexidade k {\displaystyle k} tem a mesma incerteza de um dado honesto de k {\displaystyle k} -faces e é considerada "perplexa em k {\displaystyle k} -formas" sobre o valor da variável aleatória. A não ser que seja um dado honesto de k {\displaystyle k} -faces, mais que k {\displaystyle k} valores serão possíveis, mas a incerteza geral não é maior, porque alguns destes valores terão probabilidade maior que 1 / k {\displaystyle 1/k} , diminuindo o valor geral ao somar.

A perplexidade é algumas vezes usada como uma medida de quão difícil um problema de previsão é. Isto não é sempre preciso. Se você tiver duas escolhas, uma com probabilidade 0 , 9 {\displaystyle 0,9} , então suas chances de um palpite correto são iguais a 90 % {\displaystyle 90\%} usando a estratégia ótima. A perplexidade é 2 0 , 9 log 2 0 , 9 0 , 1 log 2 0 , 1 = 1 , 38 {\displaystyle 2^{-0,9\log _{2}0,9-0,1\log _{2}0,1}=1,38} . O inverso da perplexidade, que representa a probabilidade de um palpite correto no caso do dado honesto de k {\displaystyle k} -faces, é igual à 1 / 1 , 38 = 0 , 72 {\displaystyle 1/1,38=0,72} , não 0 , 9 {\displaystyle 0,9} .

A perplexidade é a exponenciação da entropia, que é uma quantidade com contorno mais nítido. A entropia é uma medida do número esperado ou "médio" de bits exigido para codificar o resultado da variável aleatória, usando o código de comprimento variável, ótimo e teórico. Pode ser equivalentemente considerada como o ganho de informação esperado ao aprender o resultado da variável aleatória, em que a informação é medida em bits.[2]

Perplexidade de um modelo de probabilidade

Um modelo de uma distribuição de probabilidade desconhecida p {\displaystyle p} pode ser proposto com base em uma amostra de treinamento que foi retirada de p {\displaystyle p} . Dado um modelo de probabilidade proposto q {\displaystyle q} , pode-se avaliar q {\displaystyle q} ao perguntar quão bem ele prevê uma amostra de teste separada x 1 , x 2 , , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} também retirada de p {\displaystyle p} . A perplexidade do modelo q {\displaystyle q} é definida como:

b 1 N i = 1 N log b q ( x i ) , {\displaystyle b^{-{\frac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})},}

em que b {\displaystyle b} é costumeiramente 2 {\displaystyle 2} . Modelos melhores q {\displaystyle q} da distribuição desconhecida p {\displaystyle p} tenderão a atribuir probabilidades maiores q ( x i ) {\displaystyle q(x_{i})} aos eventos de teste. Assim, têm menor perplexidade, sendo menos surpreendidos pela amostra de teste.

O expoente acima pode ser considerado como o número médio de bits necessários para representar um evento de teste x i {\displaystyle x_{i}} se for usado um código ótimo baseado em q {\displaystyle q} . Modelos de baixa perplexidade fazem um melhor trabalho comprimindo a amostra de teste, exigindo poucos bits por elemento de teste em média porque q ( x i ) {\displaystyle q(x_{i})} tende a ser alta.

O expoente pode também ser considerado uma entropia cruzada:

H ( p ~ , q ) = x p ~ ( x ) log 2 q ( x ) {\displaystyle H({\tilde {p}},q)=-\sum _{x}{\tilde {p}}(x)\log _{2}q(x)}

em que p ~ {\displaystyle {\tilde {p}}} denota a distribuição empírica da amostra de teste, isto é, p ~ ( x ) = n / N {\displaystyle {\tilde {p}}(x)=n/N} , se x {\displaystyle x} tiver aparecido n {\displaystyle n} vezes na amostra de teste de tamanho N {\displaystyle N} .[3]

Perplexidade por palavra

Em processamento de linguagem natural, a perplexidade é uma forma de avaliar modelos de linguagem. Um modelo de linguagem é uma distribuição de probabilidade sobre sentenças ou textos inteiros.

Usando a definição de perplexidade para um modelo de probabilidade, pode-se encontrar, por exemplo, que a sentença média x i {\displaystyle x_{i}} na amostra de teste poderia ser codificada em 190 bits, isto é, as sentenças de teste tinham um logaritmo de probabilidade médio igual a -190. Isto daria uma perplexidade de modelo enorme de 2 190 {\displaystyle 2^{190}} por sentença. Entretanto, é mais comum normalizar o comprimento de sentença e considerar apenas o número de bits por palavra. Assim, se as frases da amostra de teste compreenderem um total de 1.000 palavras e puderem ser codificadas usando um total de 7,95 bits por palavra, poderá se relatada uma perplexidade de modelo de 2 7 , 95 = 247 {\displaystyle 2^{7,95}=247} por palavra. Em outras palavras, o modelo é tão confuso em dados de teste quanto se tivesse que escolher uniformemente e independentemente entre 247 possibilidades para cada palavra.

Até 1992, a mais baixa perplexidade publicada no Brown Corpus (lista de 1 milhão de palavras em inglês norte-americano sobre variados tópicos e gêneros) havia sido de fato aproximadamente 247 por palavra, correspondendo a uma entropia cruzada de log 2 247 = 7 , 95 {\displaystyle \log _{2}247=7,95} bits por palavra ou 1,75 bits por letra, usando um modelo trigrama. É frequentemente possível conseguir uma perplexidade mais baixa em corpora mais especializados, já que são mais previsíveis.

Novamente, simplesmente prever que a próxima palavra no Brown Corpus é a palavra "the" terá uma precisão de 7%, não de 1 / 247 = 0 , 4 % {\displaystyle 1/247=0,4\%} , como um uso ingênuo da perplexidade como uma medida de previsibilidade pode levar alguém a crer. Este palpite é baseado na estatística de unigrama do Brown Corpus, não na estatística de trigrama, que produziu a perplexidade de palavra igual a 247. Usar a estatística de trigrama melhoraria posteriormente as chances de um palpite correto.[4]

Referências

  1. Gibbon, Dafydd; Moore, Roger; Winski, Richard (1998). Handbook of Standards and Resources for Spoken Language Systems: Spoken language characterisation (em inglês). Berlim: Walter de Gruyter. ISBN 9783110157345. Consultado em 1 de março de 2018 
  2. Nugues, Pierre M. (2014). Language Processing with Perl and Prolog: Theories, Implementation, and Application (em inglês). Berlim: Springer. ISBN 9783642414640. Consultado em 1 de março de 2018 
  3. Manning, Christopher D.; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing (em inglês). Cambridge, Massachusetts: MIT Press. ISBN 9780262133609. Consultado em 1 de março de 2018 
  4. Brown, Peter F.; Pietra, Vincent J. Della; Mercer, Robert L.; Pietra, Stephen A. Della; Lai, Jennifer C. (1 de março de 1992). «An estimate of an upper bound for the entropy of English». Computational Linguistics. 18 (1): 31–40. ISSN 0891-2017. Consultado em 1 de março de 2018 
  • Portal de probabilidade e estatística