GPT-2

Generative Pre-trained Transformer 2 (GPT-2) är en autoregressiv språkmodell som använder djupinlärning för att producera sådan text, som människor producerar.

GPT-2 översätter text, svarar på frågor, sammanfattar passager, och genererar textutdata på en nivå som, även om den ibland inte kan skiljas från människors, kan bli repetitiva eller meningslösa när man genererar långa passager.Det är en allmäninlärare; den var inte specifikt utbildad för att utföra någon av dessa uppgifter, och dess förmåga att utföra dem är en förlängning av dess allmänna förmåga att exakt syntetisera nästa objekt i en godtycklig sekvens. GPT-2 skapades som en "direkt uppskalning" av OpenAI:s 2018 GPT-modell, med en tiofaldig ökning av både dess parameterantal och storleken på dess träningsdatauppsättning.

GPT-arkitekturen implementerar ett djupt neuralt nätverk, specifikt en transformatormodell,som använder uppmärksamhet i stället för tidigare återkommande- och faltningsbaserade arkitekturer. Uppmärksamhetsmekanismer tillåter modellen att selektivt fokusera på segment av inmatad text som den förutspår att vara den mest relevanta. Denna modell möjliggör kraftigt ökad parallellisering och överträffar tidigare riktmärken för RNN/CNN/LSTM-baserade modeller

OpenAI släppte den kompletta versionen av språkmodellen GPT-2 (med 1,5 miljarder parametrar) i november 2019. GPT-2 skulle följas av 175 miljarder-parametern GPT-3, som avslöjades för allmänheten 2020 (vars källkod aldrig har gjorts tillgänglig). Tillgång till GPT-3 tillhandahålls exklusivt via ett API som erbjuds av Microsoft.

Referenser

Den här artikeln är helt eller delvis baserad på material från engelskspråkiga Wikipedia, GPT-2, 27 december 2021.
v  r
Differentierbar datoranvändning
General
Differentierbar programmering Neural Turing maskin Differentierbar neural dator Automatisk differentiering Neuromorf ingenjörskonst Cable theory Mönsterigenkänning Beräkningslärandeteori Tensorkalkyl
Begrepp
Gradient descent SGD Klusteranalys Regression Overfitting Adversary Attention Faltning Förlustfunktioner Backpropagation Normalization Activation Softmax Sigmoid Rectifier Regularization Datasets Augmentation
Programmeringsspråk
Python Julia
Applikationer
Maskininlärning Artificiellt neuronnät Djupinlärning Numerisk analys Federerad inlärning Artificiell intelligens
Hårdvara
IPU TPU VPU Memristor SpiNNaker
Mjukvarubibliotek
TensorFlow PyTorch Keras Theano
Implementation
Audiovisuellt
Verbal
Word2vec Transformator BERT NMT Project Debater Watson GPT-2 GPT-3
Beslutande
Alphago AlphaZero Q-learning SARSA OpenAI Five Självkörande bil MuZero Action selection Robot control
Personer
Alex Graves Ian Goodfellow Yoshua Bengio Geoffrey Hinton Yann LeCun Andrew Ng Demis Hassabis David Silver Fei-Fei Li
Organisationer
Deepmind Hi! PARIS Openai MIT CSAIL Mila Google Brain

Noter