TFIDF

TFIDF (ang. TF – term frequency, IDF – inverse document frequency) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów.

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwarkach internetowych, kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru:

( t f - i d f ) i , j = t f i , j × i d f i , {\displaystyle \mathrm {(tf{\text{-}}idf)_{i,j}} =\mathrm {tf_{i,j}} \times \mathrm {idf_{i}} ,}

gdzie t f i , j {\displaystyle \mathrm {tf_{i,j}} } to tzw. „term frequency”, wyrażana wzorem:

t f i , j = n i , j k n k , j , {\displaystyle \mathrm {tf_{i,j}} ={\frac {n_{i,j}}{\sum _{k}n_{k,j}}},}

gdzie n i , j {\displaystyle n_{i,j}} jest liczbą wystąpień termu ( t i ) {\displaystyle (t_{i})} w dokumencie d j , {\displaystyle d_{j},} a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie d j . {\displaystyle d_{j}.} Wielkość i d f i {\displaystyle \mathrm {idf_{i}} } to „inverse document frequency” wyrażana wzorem:

i d f i = log | D | | { d : t i d } | , {\displaystyle \mathrm {idf_{i}} =\log {\frac {|D|}{|\{d:t_{i}\in d\}|}},}

gdzie:

| D | {\displaystyle |D|} – liczba dokumentów w korpusie,
| { d : t i d } | {\displaystyle |\{d:t_{i}\in d\}|} – liczba dokumentów zawierających przynajmniej jedno wystąpienie danego termu.

Zobacz też

  • PageRank
  • TF

Bibliografia

  • Waga Termów w Automatycznych Systemach Przetwarzania Tekstu [en]