Ordinador neural diferenciable

Un ordinador neuronal diferenciable que s'està entrenant per emmagatzemar i recordar nombres binaris densos. Es mostra la realització d'una tasca de referència durant l'entrenament. A dalt a l'esquerra: l'entrada (vermell) i l'objectiu (blau), com a paraules de 5 bits i un senyal d'interrupció d'1 bit. A dalt a la dreta: la sortida del model.

En intel·ligència artificial, un ordinador neural diferenciable (amb acrònim anglès DNC) és una arquitectura de xarxa neuronal augmentada amb memòria (MANN), que normalment és (però no per definició) recurrent en la seva implementació. El model va ser publicat el 2016 per Alex Graves et al. de DeepMind.[1]

DNC s'inspira indirectament en l'arquitectura Von-Neumann, fent que és probable que superin les arquitectures convencionals en tasques que són fonamentalment algorítmiques que no es poden aprendre trobant un límit de decisió.

Diagrama del sistema DNC

Fins ara, s'ha demostrat que els DNC només gestionen tasques relativament senzilles, que es poden resoldre mitjançant la programació convencional. Però els DNC no cal que estiguin programats per a cada problema, sinó que es poden entrenar. Aquest interval d'atenció permet a l'usuari alimentar estructures de dades complexes com ara gràfics de manera seqüencial i recordar-los per a un ús posterior. A més, poden aprendre aspectes del raonament simbòlic i aplicar-lo a la memòria de treball. Els investigadors que van publicar el mètode prometen que els DNC es poden entrenar per realitzar tasques complexes i estructurades [2][3] i abordar aplicacions de grans dades que requereixen algun tipus de raonament, com ara la generació de comentaris de vídeo o anàlisi de text semàntic.[4]

Les xarxes DNC es van introduir com una extensió de la Neural Turing Machine (NTM), amb l'addició de mecanismes d'atenció a la memòria que controlen on s'emmagatzema la memòria i una atenció temporal que registra l'ordre dels esdeveniments. Aquesta estructura permet que els DNC siguin més robusts i abstractes que un NTM, i encara realitzin tasques que tenen dependències a llarg termini que alguns predecessors com la memòria a llarg termini (LSTM). La memòria, que és simplement una matriu, es pot assignar dinàmicament i accedir-hi indefinidament. El DNC és diferenciable d'extrem a extrem (cada subcomponent del model és diferenciable, per tant també ho és tot el model). Això fa possible optimitzar-los de manera eficient mitjançant el descens de gradients.[5]

Referències

  1. Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo (en anglès) Nature, 538, 7626, 12-10-2016, pàg. 471–476. Bibcode: 2016Natur.538..471G. DOI: 10.1038/nature20101. ISSN: 1476-4687. PMID: 27732574.
  2. Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo (en anglès) Nature, 538, 7626, 12-10-2016, pàg. 471–476. Bibcode: 2016Natur.538..471G. DOI: 10.1038/nature20101. ISSN: 1476-4687. PMID: 27732574.
  3. «Differentiable neural computers | DeepMind» (en anglès). DeepMind. [Consulta: 19 octubre 2016].
  4. Jaeger, Herbert (en anglès) Nature, 538, 7626, 12-10-2016, pàg. 467–468. Bibcode: 2016Natur.538..467J. DOI: 10.1038/nature19477. ISSN: 1476-4687. PMID: 27732576 [Consulta: free].
  5. Mannes, John. «DeepMind's differentiable neural computer helps you navigate the subway with its memory» (en anglès). TechCrunch. [Consulta: 19 octubre 2016].