Word2vec

Type	Spécialité (d), discipline (d), Word embedding

modifier - modifier le code - modifier Wikidata

En intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de Tomas Mikolov (en).

Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim^[1].

Architectures

Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram^[2]. Le CBOW vise à prédire un mot étant donné son contexte, c'est-à-dire étant donné les mots qui en sont proches dans le texte. Un tel contexte est par exemple les 5 mots à droite et les 5 mots à gauche du mot à prédire. Le skip-gram a une architecture symétrique visant à prédire les mots du contexte étant donné un mot en entrée.

En pratique, le modèle CBOW est plus rapide à apprendre, mais le modèle skip-gram donne généralement de meilleurs résultats^[3].

Dans les deux cas, le réseau de neurones comporte deux couches. La couche cachée contient quelques centaines de neurones et constitue, à l'issue de la représentation, le plongement lexical (embedding) permettant de représenter un mot. La couche de sortie permet d'implémenter une tâche de classification au moyen d'une softmax.

L'apprentissage ne nécessite néanmoins aucun label, la vérité terrain étant directement déduite des données et plus particulièrement de la proximité des mots au sein du corpus d'entraînement. En ce sens, l'apprentissage de Word2vec constitue un apprentissage auto-supervisé^[4].

Notes et références

↑ https://radimrehurek.com/gensim/models/word2vec.html
↑ Tomas Mikolov Tomas, Sutskever, Ilya, Chen, Kai, Corrado, Greg S. et Dean, Jeff, « Efficient Estimation of Word Representations in Vector Space », Arxiv,‎ 2013 (arXiv 1301.3781, lire en ligne)
↑ Tomas Mikolov Tomas, Sutskever, Ilya, Chen, Kai, Corrado, Greg S. et Dean, Jeff, « Distributed representations of words and phrases and their compositionality », Advances in Neural Information Processing Systems,‎ 2013 (Bibcode 2013arXiv1310.4546M, arXiv 1310.4546)
↑ « Self-supervised learning: The dark matter of intelligence », sur ai.facebook.com (consulté le 11 mars 2021)

Bibliographie

Tomas Mikolov, « Efficient Estimation of Word Representations in Vector Space », Arxiv,‎ 2013 (arXiv 1301.3781, lire en ligne)

Voir aussi

BERT (traitement automatique du langage)
Stanford Question Answering Dataset

v · m

Apprentissage automatique et exploration de données

Problèmes

Apprentissage supervisé

Classement	Arbre de décision Boosting Forêts aléatoires k-NN U-matrix CRF HMM Modèle graphique
Régression	Régression linéaire Analyse discriminante linéaire Naive Bayes Régression logistique Machine à vecteurs de support ou SVM
Réseau de neurones artificiels (ANN)	Réseau récurrents (RNN) LSTM GRU Calcul par réservoir RBF Réseau bayésien à action directe (FFN) Apprentissage profond Perceptron Perceptron multicouche Réseau neuronal convolutif (CNN) TDNN Réseau de neurones à impulsions (SNN)

Apprentissage non supervisé

Clustering	Regroupement hiérarchique K-means Algorithme espérance-maximisation DBSCAN OPTICS
Réduction de dimensions	Analyse factorielle Analyse canonique des corrélations Analyse en composantes indépendantes ACP Sélection de caractéristique Extraction de caractéristique t-SNE
Réseau de neurones artificiels (ANN)	Réseau de Hopfield RBM Cartes de Kohonen