GPT-2 : Referenser Wikipedia, den fria encyklopedin

GPT-2

Generative Pre-trained Transformer 2 (GPT-2) är en autoregressiv språkmodell som använder djupinlärning för att producera sådan text, som människor producerar.

GPT-2 översätter text, svarar på frågor, sammanfattar passager, och genererar textutdata på en nivå som, även om den ibland inte kan skiljas från människors, kan bli repetitiva eller meningslösa när man genererar långa passager.Det är en allmäninlärare; den var inte specifikt utbildad för att utföra någon av dessa uppgifter, och dess förmåga att utföra dem är en förlängning av dess allmänna förmåga att exakt syntetisera nästa objekt i en godtycklig sekvens. GPT-2 skapades som en "direkt uppskalning" av OpenAI:s 2018 GPT-modell, med en tiofaldig ökning av både dess parameterantal och storleken på dess träningsdatauppsättning.

GPT-arkitekturen implementerar ett djupt neuralt nätverk, specifikt en transformatormodell,som använder uppmärksamhet i stället för tidigare återkommande- och faltningsbaserade arkitekturer. Uppmärksamhetsmekanismer tillåter modellen att selektivt fokusera på segment av inmatad text som den förutspår att vara den mest relevanta. Denna modell möjliggör kraftigt ökad parallellisering och överträffar tidigare riktmärken för RNN/CNN/LSTM-baserade modeller

OpenAI släppte den kompletta versionen av språkmodellen GPT-2 (med 1,5 miljarder parametrar) i november 2019. GPT-2 skulle följas av 175 miljarder-parametern GPT-3, som avslöjades för allmänheten 2020 (vars källkod aldrig har gjorts tillgänglig). Tillgång till GPT-3 tillhandahålls exklusivt via ett API som erbjuds av Microsoft.

Referenser

Den här artikeln är helt eller delvis baserad på material från engelskspråkiga Wikipedia, GPT-2, 27 december 2021.

v • r

Differentierbar datoranvändning

General

Differentierbar programmering • Neural Turing maskin • Differentierbar neural dator • Automatisk differentiering • Neuromorf ingenjörskonst • Cable theory • Mönsterigenkänning • Beräkningslärandeteori • Tensorkalkyl

Begrepp

Gradient descent • SGD • Klusteranalys • Regression • Overfitting • Adversary • Attention • Faltning • Förlustfunktioner • Backpropagation • Normalization • Activation • Softmax • Sigmoid • Rectifier • Regularization • Datasets • Augmentation

Programmeringsspråk

Python • Julia

Applikationer

Maskininlärning • Artificiellt neuronnät • Djupinlärning • Numerisk analys • Federerad inlärning • Artificiell intelligens

Hårdvara

IPU • TPU • VPU • Memristor • SpiNNaker

Mjukvarubibliotek

TensorFlow • PyTorch • Keras • Theano

Implementation

Audiovisuellt	AlexNet • WaveNet • Mänsklig bildsyntes • Handskriftsigenkänning • Maskinläsning • Talsyntes • Taligenkänning • Ansiktsigenkänning • AlphaFold • DALL-E

Verbal	Word2vec • Transformator • BERT • NMT • Project Debater • Watson • GPT-2 • GPT-3

Beslutande	Alphago • AlphaZero • Q-learning • SARSA • OpenAI Five • Självkörande bil • MuZero • Action selection • Robot control