TFIDF

TFIDF (ang. TF – term frequency, IDF – inverse document frequency) – ważenie częstością termów – odwrotna częstość w dokumentach – jedna z metod obliczania wagi słów w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów obliczających statystyczne wagi termów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TFIDF informuje o częstości wystąpienia termów uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego termu i jego znaczenia w kontekście pełnej kolekcji dokumentów.

Algorytm stosowany jako metoda oceny relewantności dokumentu w wyszukiwarkach internetowych, kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat.

Wartość TF-IDF oblicza się ze wzoru:

\mathrm {(tf{\text{-}}idf)_{i,j}} =\mathrm {tf_{i,j}} \times \mathrm {idf_{i}} ,

gdzie $\mathrm {tf_{i,j}}$ to tzw. „term frequency”, wyrażana wzorem:

\mathrm {tf_{i,j}} ={\frac {n_{i,j}}{\sum _{k}n_{k,j}}},

gdzie $n_{i,j}$ jest liczbą wystąpień termu $(t_{i})$ w dokumencie $d_{j},$ a mianownik jest sumą liczby wystąpień wszystkich termów w dokumencie $d_{j}.$ Wielkość $\mathrm {idf_{i}}$ to „inverse document frequency” wyrażana wzorem: