Word2vec

Arquitectura genèrica utilitzada per CBOW i Skip-gram.

Word2vec és una tècnica per al processament del llenguatge natural publicada l'any 2013 per l'investigador Tomáš Mikolov. L'algorisme word2vec utilitza un model de xarxa neuronal per aprendre associacions de paraules a partir d'un gran corpus de text. Un cop entrenat, aquest model pot detectar paraules sinònimes o suggerir paraules addicionals per a una frase parcial. Com el seu nom indica, word2vec representa cada paraula diferent amb una llista particular de nombres anomenada vector. Els vectors es trien amb cura de manera que captin les qualitats semàntiques i sintàctiques de les paraules; com a tal, una funció matemàtica simple (semblança del cosinus) pot indicar el nivell de semblança semàntica entre les paraules representades per aquests vectors.[1]

Arquitectura CBOW. A la figura hi ha diverses matrius, però això no ha de fer pensar erròniament que les matrius són múltiples.

Word2vec és un grup de models relacionats que s'utilitzen per produir incrustacions de paraules. Aquests models són xarxes neuronals poc profundes de dues capes que s'entrenen per reconstruir contextos lingüístics de paraules. Word2vec pren com a entrada un gran corpus de text i produeix un espai vectorial, normalment de diversos centenars de dimensions, amb cada paraula única del corpus assignada un vector corresponent a l'espai. Els vectors de paraules es col·loquen a l'espai vectorial de manera que les paraules que comparteixen contextos comuns en el corpus, és a dir, són semblants semànticament i sintàcticament, es troben a prop l'una de l'altra a l'espai.[2] Les paraules més diferents es troben més lluny les unes de les altres a l'espai.[3]

Arquitectura skip-gram. A diferència de CBOW, les matrius W no representen una còpia de la mateixa matriu, sinó que són diferents per a cada testimoni de sortida.

Word2vec pot utilitzar qualsevol de les dues arquitectures de models per produir aquestes representacions distribuïdes de paraules: bossa de paraules contínua (CBOW) o skip-gram continu. En ambdues arquitectures, word2vec considera paraules individuals i una finestra lliscant de paraules de context que envolten paraules individuals a mesura que s'itera per tot el corpus. En l'arquitectura contínua de la bossa de paraules, el model prediu la paraula actual des de la finestra de paraules de context circumdants. L'ordre de les paraules de context no influeix en la predicció (suposició de la borsa de paraules). En l'arquitectura contínua de salts de grams, el model utilitza la paraula actual per predir la finestra circumdant de paraules de context.[4] L'arquitectura skip-gram pesa més les paraules de context propers que les paraules de context més llunyans. Segons la nota dels autors,[5] CBOW és més ràpid mentre que skip-gram fa un millor treball per a paraules poc freqüents.

Referències

  1. «A Beginner's Guide to Word2Vec and Neural Word Embeddings» (en anglès). http://wiki.pathmind.com.+[Consulta: 2 novembre 2022].
  2. Mikolov, Tomas. Efficient Estimation of Word Representations in Vector Space, 2013. 
  3. «What is Word2Vec?» (en anglès). https://www.section.io.+[Consulta: 2 novembre 2022].
  4. Mikolov, Tomas. Efficient Estimation of Word Representations in Vector Space, 2013. 
  5. «Google Code Archive - Long-term storage for Google Code Project Hosting.» (en anglès). code.google.com. [Consulta: 13 juny 2016].[Enllaç no actiu]