Modello della borsa di parole

Questa voce sull'argomento informatica è solo un abbozzo.

Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.

Il modello della borsa di parole (in inglese: Bag-of-words model, in sigla: BoW) è un metodo utilizzato nell'Information Retrieval e nel Elaborazione del linguaggio naturale per rappresentare documenti ignorando l'ordine delle parole. In questo modello, ogni documento è considerato in quanto contiene parole, analogamente a una borsa; ciò consente una gestione di queste basata su liste, dove ogni borsa contiene determinate parole di una lista. Nella Computer Vision si applica alla classificazione delle immagini, trattando l'immagine come caratteristiche (feature) di parole. In particolare, nell'object recognition, un'immagine può essere trattata come un documento e le caratteristiche rilevate in determinati punti dell'immagine si considerano "parole" visuali. Nella classificazione di documenti, la borsa di parole è un vettore sparso del numero di occorrenze delle parole, che non è altro che un istogramma sparso sul vocabolario. In Computer Vision una borsa di parole visuale è un vettore sparso di occorrenze del vocabolario di caratteristiche locali dell'immagine.

Applicazione

Nella filtrazione baysiana dello spam, un messaggio di posta elettronica è modellato come una collezione disordinata di parole selezionata da una o due distribuzioni di probabilità: una rappresentante lo spam e una rappresentante e-mail legittimate. Mentre alcune parole saranno trovate in entrambe le "borse", altre saranno trovate solo nella borsa spam e altre solo nella borsa "non spam".