GOTO 2018 • On the Road to Artificial General Intelligence • Danny Lange - Video Explode

[Musica]
mattina non vedevo davvero l’ ora
questo evento perché è il mio preferito
argomento, purtroppo, anche l’unico
argomento di cui parlo quindi è carino
titolo ambizioso sì
l’intelligenza generale così artificiale è
dietro l’angolo direi cinque anni
fa non avrei mai osato nemmeno
menzionarlo tre anni fa avrei
ha detto che è pazzo
e un anno fa ho iniziato a cambiare idea
sì, è un titolo audace ma continua
in mente che tutto ciò che dico oggi è
davvero rilevante per gli sviluppatori perché
tutto ciò che ti mostro puoi effettivamente
vai a scaricarlo e puoi giocare con
te stesso sì
e il numero due può essere applicato tutto
al di fuori del gioco sto solo usando i giochi
perché è più eccitante da usare come
esempi ma tutto ciò che mostro può essere
usato nel noioso tradizionale forse o
forse non le applicazioni aziendali sì
quindi molte di queste tecniche possono essere applicate
direttamente se vuoi vendere libri
se io Amazon o ottenere le tasse per arrivare
tempo e così via sì, solo per mettere questo
in prospettiva, lavorando per l’unità a
società di gioco, ma il mio vero background è
un’impresa ero a capo macchina
imparando da uber dove costruito nel mio
piattaforma ghiandolare che è una macchina
piattaforma di apprendimento utilizzata su Google
sia per l’app che mangia la mappatura e
prima di me ero GM
per l’apprendimento automatico su Amazon, quindi io
ha eseguito l’ apprendimento automatico della macchina
piattaforma per la vendita al dettaglio di Amazon utilizzata a
centinaia di team su Amazon per tutti
tipi di scopi
questa è la previsione della dimensione della scarpa per
clienti o protezione antifrode o
qualcosa del genere sì, ho anche lanciato
il primo servizio di machine learning su
Amazon Web Services ed era un servizio
proprietario ci al giorno d’oggi ne abbiamo un sacco
molti servizi di machine learning da
Prima di Amazon ho passato del tempo a
Microsoft dove ho eseguito la macchina
imparando squadra di kit di strumenti e fatto altro
cose un paio di start – up e prima
su IBM e perché quando Danimarca Abel
accennato che esisto iniziato come a
ingegnere del software non ci interessa l’ e-mail
loro molti molti anni fa Unity
Tecnologie una società danese, ma ora
hit core a San Francisco USA è un
la piattaforma 3d in tempo reale è più di
giochi come spero lo faranno
Capisco oggi circa il 60% del mercato
condividere i giochi quindi una piattaforma di gioco del 60%
di giochi si stanno costruendo sull’unità
piattaforma siamo installati su oltre 3
miliardi di dispositivi unici e 1,5 miliardi
le persone giocano a un gioco sviluppato su
piattaforma di unità ogni mese lo so
perché questi giochi parlano al mio
server quindi so cosa stai giocando ok
quindi qual è l’ intelligenza facciale T?
Siri e Alexa no, non è siriano
Alexa sono pezzi di software hard-coded
potrebbe usare un po ‘di apprendimento automatico da fare
buon riconoscimento vocale che potrebbe utilizzare
un po ‘di apprendimento automatico qua e là
ma molto molto di base è
progettato da persone per persone sì sì
leggi l’ altro giorno che Amazon sta assumendo
e pianificato di mantenere il loro eco e Alexa
progetti con un totale di 10.000
dipendenti sì un sacco di un sacco di
backend in realtà in parte è in realtà
gestito da persone sembra che sia
computer che fa cose come persone reali
fare roba sì , è molto, molto gente
sono Amazon molto ingegnerizzato e
Consigli di Netflix
si tratta di algoritmi di cui parlo
AI non si tratta di algoritmi è
qualcos’altro ma una sorta di raccomandazione
di algoritmi accurati che fanno cose così
non ti prende libri, film o altro
è che sembra che le persone come te
potrebbe piacerti anche se non lo hai ancora fatto
acquistato qualcosa come quella frode
servizi di rilevazione trading azionario molto
di persone chiamano questa AI ma è davvero
anche le persone intelligenti pensano
algoritmi intelligenti che fanno cose intelligenti ma
questo non è AI Facebook feed Nadia a tutti
e l’ unica intelligenza artificiale ha davvero successo
questi giorni, naturalmente, sono titoli di lavoro e
sullo scollegamento quindi se vai e guarda
mi chiedono perché io ho guardato sopra
gli anni e ora è come gli altri
titolo è ha qualche tipo di intelligenza artificiale in esso in modo
ora ho passato tutte queste cose o quello che è
vera intelligenza bene il dizionario
dice una cosa del genere è di circa un
piangere e applicare conoscenze e abilità
è molto astratto, non capisco
o così qual è la vera intelligenza
qual è la vera intelligenza che veramente
so che è l’ intelligenza e
sistemi biologici sì, questo è il
questa è l’ unica cosa che sappiamo veramente
sì, quindi tutte queste definizioni di te
sappi dimenticarti di sì animali umani
abbiamo l’ intelligenza sì e perché noi
avere intelligenza perché c’è un
la ragione la ragione è basata su pochi
principi alla base di tutto questo
entropia il fatto che per mantenere
strutture complesse che richiedono energia
e così così da mantenere un biologico
organismo abbiamo bisogno di consumare energia per
impedirgli di cadere a pezzi e diventare
una specie di insipido niente sì sì entropia
è la cosa che guida tutto così noi
mangiamo consumiamo energia per mantenere l’ordine
okay quando mangiamo dobbiamo evitare
mangiando noi stessi possiamo essere una pianta
seduto lì cercando di prendere il sole e
qualcuno arriva e mangia la pianta
potrebbe essere un coniglio saltare in giro e
qualche lupo combinato mangia il coniglio sì
quindi c’è questo tipo di flusso di energia
avendo luogo sì, abbiamo anche bisogno di
moltiplicare e diventare più abbondante e
tutto il tempo di cui dobbiamo essere consapevoli
fisica così quando saliamo sul melo
dobbiamo stare attenti a non cadere
e rompici il collo sì, così è davvero
su questi trasporti si tratta davvero
questi principi e la necessità di vivere
a questi principi dove abbiamo bisogno
intelligenza sì, quindi abbiamo un’agenzia
dove operiamo sul nostro ambiente
che cambia il nostro ambiente a
Benefici , sì, sì, natura
inventato questo genere di cose dietro di me
sì, che è fondamentalmente
infrastruttura sì, quindi abbiamo la chimica
meccanismi abbiamo strutture cellulari
abbiamo organismi multicellulari in cui noi
avere comunicazione in là usando
meccanismi chimici abbiamo cose simili
la capacità di controllare i muscoli che abbiamo
i sensori toccano il lato dell’udito ecc
come la vista è venuto molto tempo fa
forse durante l’esplosione del Cambriano
forse solo per un periodo di 350 mila
anni dalle cellule sensibili alla luce al
costruzione di un occhio così naturale
costantemente evoluto queste cose per essere
più efficiente sì, ecco dov’è
l’intelligenza viene da yep
periodo c’è un universo parallelo
da qualche parte dove non c’è entropia noi
non è necessario consumare energia per mantenere
ordine e non abbiamo bisogno di intelligenza
sì , possiamo semplicemente sederci e non fare nulla
qui così
cosa è più naturale che se lo desideri
davvero davvero inventare artificiali
l’intelligenza guardi la natura
e scadono
ci si ispira e tu
guarda un motore 3d con lo spazio
gravità del motore della fisica dell’ambiente
collisione inerziale è a è controllata
è un ecosistema è chiuso e così
davvero replica il mondo sì sì
pensa al tuo motore di gioco come tale
Biodome per la sperimentazione di IA sì a
Unity abbiamo costruito un framework open source
chiamati agenti ml dove puoi iniziare
sperimentare con tutti questi concetti che
appena spiegato sì essere a conoscenza della fisica
non cadere giù per risolvere i problemi
per ottenere qualcosa non si mangia o
sparato da qualche altro agente ecc. sì sì
questo non è niente di nuovo in un certo senso
stato un sacco di ricerca in macchina
apprendimento
nai intorno alla comprensione visiva così tu
avere come un gioco sparatutto in prima persona
dove hai un ma cercando di essere
davvero bravo in quello che hai
controllo del movimento in cui si dispone di robot
imparando a camminare e tu hai cognitivo
sfide in cui il tuo pensiero ha
qualcosa come la mente di alphago
alphago suona, sì, così così non c’è
stato un sacco di intelligenza artificiale e apprendimento automatico
ricerca già in atto in questi
ambienti comunque sono tutti
un po ‘limitato se si guarda un vero
ambiente di gioco commerciale come
unità e questo non è un passo di unità
questo è davvero circa la diversità di
gli strumenti e le risorse esistenti nel
ecosistema di unità sì, allora avete
qualcosa è molto più complesso di
qualsiasi cosa ti ho appena mostrato che il
i ricercatori hanno usato finora sì
così all’inizio di quest’anno abbiamo annunciato un
collaborazione tra la mente profonda e l’unità
fondamentalmente è basato su
questa idea che il MIS ha spiegato
qui che è quello non respingere il video
giochi come qualcosa che può effettivamente
progredire l’ intelligenza artificiale molto più di ogni altra cosa
quindi penso che sia il massimo
importante da asporto oggi non congedare
perché è così vicino al reale
il mondo reale là fuori che siamo stati
vivendo da o non noi ma quella natura
ho avuto circa mezzo miliardo di anni
sì è così vicino che ha tutto il
fondamentali sì sì, non respingere il
idea di gioco che porta valore sì sì
quindi saltiamo in quello della natura
apprendimento del metodo di rinforzo
sì perché questo è per gli sviluppatori sì
quasi tutto in natura un po ‘
forse semplificato si basa su questa idea
di osservare agire e poi
imparando fondamentalmente da quelle azioni
quello che consideriamo i premi sì giusto
come un cucciolo inizia nostro figlio
esplorare senza veramente capire
la soluzione a un problema che ci muoviamo
attraverso questo anello questo volano
ripetutamente e passare da una modalità di
esplorare una modalità di sfruttamento divertente
abbastanza questo è anche il più usato
algoritmo su Amazon sì ogni singolo
la pagina su amazon.com sta implementando questo
questo ciclo ti mostra roba
prova a farti fare clic
se fai clic o no, c’è un
piccolo pezzo di JavaScript, quindi
lì per sapere quale parte della pagina è
visibile sì, se si fa clic su questo
o non importa sì, quello è il volano
andare in giro imparando sempre di più
su di te stai andando dall’esplorazione a
sfruttamento sì così ho detto a voi
che il gioco è anche molto impressionante per
esemplificano alcune di queste cose, che è
forse non è così eccitante quando guardi
su una pagina web di Amazon e provare a
capire cosa sta succedendo , quindi cosa noi
fatto a Unity era fondamentalmente per dire possibile
può il pollo attraversare l’imparare ad attraversare
la strada ha praticamente il computer
vedi solo fotogramma per fotogramma 80 per 80 80
pixel e portando a casa quindi devo
prima qui prendendo quattro azioni una due
tre quattro sappiamo che significa andare a sinistra
il computer arretrato di destra lo sa
niente su questo sì e poi ottenere il
segnale di ricompensa che è fondamentalmente
negativo per essere investito da un’auto e
positivo per la raccolta di un pacchetto regalo
sì, la chiave in un computer impara a ottenere
il pollo per attraversare in sicurezza la strada
mentre raccogli i pacchetti regalo dalla tabula
rasa da una lavagna pulita senza alcun tipo
di ingegneri del software che si trovano qui
twittare e imbrogliare alcuni
tipo di algoritmo intelligente sì, quindi facciamolo
dai un’occhiata al video questo è prima
avviso di addestramento come è il pollo
muovendosi più indietro che in avanti lei
ha un’esplorazione completamente casuale al 100%
esplorazione casuale sì ma guarda in a
momento in cui colpirà davvero un regalo
pacchetto proprio lì e poi vengono uccisi
da una macchina così in 10 secondi ne ha due
alcune informazioni qui sì
più e più e più e più e più volte
dopo mezz’ora sembra così
diventa veramente bravo a ping i pacchetti
viene ucciso una volta ogni tanto qui ma
è abbastanza buono, sì e
guarda alcune volte che si ferma per
un momento
guarda e poi è stato ucciso di nuovo, sì
guardare dopo 6 ore di formazione si
diventa super sicuro
yeah yeah solo vi terrà andare a fare voi
sai perché sta andando avanti perché lo sono
in realtà non gli ho mai detto niente
andare avanti
Ho solo un grande basi pacchetti e non
essere ucciso
perché si sta muovendo in un modo, credo
sono sempre più pacchetti in futuro
che dietro di te questo è ciò che chiamo
comportamento emergente questo è il futuro di
programmazione ragazzi sì il futuro di
programmazione è capire questo
ricompense la funzione se non l’ hai ascoltata
prima di ora lo hai sentito e
ricordalo per il resto delle tue vite
la funzione premi è la magia il
la funzione di ricompense sbagliata darà torto
comportamento emergente potrebbe non essere evidente
Darò un esempio che Facebook ha avuto
funzione di ricompense sbagliata si lo era
interamente e solo dollari sì no
colpire di Facebook ma loro finita
indicizzato sulle entrate e nei guai
sì Amazon ha una divertente funzione di ricompensa
fa clic su attività e poi pensano
i soldi seguiranno dall’attività se noi
può far sì che le persone facciano clic sulle nostre cose
finiranno per comprare un altro
funzione di ricompensa sì ho semplificato a
le funzioni sono piccole ma inverse
importante sì quindi abbiamo avuto agenti ml
fuori più di un anno e ne abbiamo fatto un po ‘
misure e in questo momento siamo gentili
di molto vicino o siamo il numero uno
piattaforma per l’apprendimento di rinforzo in
il mondo e quello che puoi fare è che puoi
utilizzare l’intero ecosistema di unità per creare
ambienti con tutta la grafica e
le complessità che ti ho mostrato puoi allora
addestrandoli usiamo il tensorflow di Google
su GCP su Google cloud e ti alleni
la tua cosa e poi alla fine del
giorno si dispone di un modello che è possibile incorporare
e controlla i tuoi agenti ma e questo è
cosa ti mostrerò oggi, quindi lasciami
mostraci alcuni scenari di apprendimento qui
avere un
l’ apprendimento del controllo del movimento è fondamentalmente a
ragno a quattro zampe che è vicino
definizione non un ragno ma un tribunale
Riparare imparando a camminare sicuramente lo stesso
modo in cui il pollo impara ad attraversare il
strada quindi ci prova ancora, ancora e ancora
e capire come camminare sì sì no
ingegnere del software qui è solo un ingenuo
algoritmo di apprendimento di rinforzo e il
computer molto paziente e un altro ancora
sviluppatore paziente si capisce questo
si
la funzione premi qui va avanti
come fondamentalmente fai progressi da sinistra a destra
è così che è l’unica cosa che
il sistema viene detto ogni volta che si muove
da sinistra a destra ottiene una ricompensa sì sì a
molto spesso ci inciamparemmo
intorno e non capire come farlo
in realtà molto complesso sai muoversi
tutte e quattro le gambe e capire di farlo dentro
l’ ordine giusto ecc. ecc prosciutto fammi mostrare
voi un altro giocando a ping pong o
tennis o quant’altro sia fondamentalmente il
l’obiettivo qui è di mantenere la palla finchè
possibile e vedi le posizioni delle palle
e racchette e così via e qui
la ricompensa positiva è di fondamentalmente
restituire la palla e oltre la rete e tu
avere una ricompensa negativa se cade
e sembra così sì , questi due
ragazzi qui hanno imparato a suonare tutto da
loro stessi
proprio come il pollo sì, così loro solo
giochiamo possiamo effettivamente spina fuori uno dei
modelli qui e metti in moto un Emmanuel
controllo del gioco e gioco contro il
computer, ma in pratica ha imparato a farlo
giocavamo giocando contro se stessi
ha avuto i mondiali di calcio prima di questo
anno, in modo che ha ispirato noi ci ha ispirato a
creare un piccolo scenario di calcio in cui noi
addestrato un modello di apprendimento automatico per a
attaccante un giocatore offensivo sì sì come
facciamo il personaggio di un giocatore offensivo
così ogni volta che abbiamo messo le parole in questo abbiamo
bit così attento perché noi
dì al computer una di quelle parole sì
solo per noi per concettualizzare
capire di cosa stiamo parlando della
il punto qui è che abbiamo addestrato un attaccante
fondamentalmente avendo una funzione di ricompense
contro la funzione di ricompensa
quello è segnare un goal nell’avversario
net yeah andiamo laggiù e otterrai
una ricompensa sì, puoi mettere un tale agente
nel gioco qui e possono fare una specie di
calcia la palla e segna sì
anche bisogno di una difesa
qual è la difesa la difesa è un
agente che ottiene una ricompensa negativa ogni
tempo loro sono segnati su sì come facciamo
addestrarli li abbiamo fondamentalmente messi
insieme sì se ho uno di loro
lì l’attaccante
l’attaccante può avere un momento facile allora
metti il difensore lì dentro e
ora si può allenare uno contro l’altro io
passerà un paio d’ore nel
computer e fondamentalmente ho il
ottimo difensore e ottimo
attaccante perché quando uno di loro ottiene
meglio cosa ottiene l’altro
un po ‘ meglio – sì sì a un certo punto
convergono e non possono realmente ottenere
molto meglio quindi ho una squadra quindi io
clonali così ora ho due squadre e
Lasciali giocare l’ uno contro l’altro e
sembra qualcosa di simile sì, sì di nuovo
vediamo un comportamento emergente – estremamente
unità di ricompense numeriche semplici
il comportamento si scopre che a
il giocatore difensivo è in piedi nel
davanti all’obiettivo come un portiere
proteggendo l’obiettivo il piccolo bianco
la cosa è un occhio solo come un raggio di sole
è così che si guardano qui guardano il
attaccanti i giocatori offensivi perché farlo
guardano di traverso perché non guardano
inoltrare
bene guardano di traverso perché se il tuo
inizia a guardare lateralmente e tu sei
mantenendo la maggior parte del tempo che stai mantenendo
a bordo campo devi convertire
l’intero campo tutto il tempo così tu
sapere cosa sta succedendo
Trovo interessante questo con due
semplici funzioni numeriche inverse che ottengo
qualcosa che sembra almeno giovane
i giocatori di calcio che giocano sono lungo il
linea perché è più facile essere un
giocatore offensivo e giocare lungo il
linea e obiettivo è in piedi di fronte
l’obiettivo sì che dopo mezzo milione
episodi di allenamento di questo comportamento
emerge che non è inverosimile da
la realtà è un’altra cosa che ispira
apprendimento del curriculum quindi guarda in questo
esempio abbiamo bisogno di avere l’ agente
ha bisogno di saltare un muro sì, quando il muro
è abbassato può solo saltare il muro e
esci ma quando il muro si alza diventa
più difficile e ha bisogno di usare il
mattone arancione spingerlo vicino al muro
saltare sul mattone saltare oltre le mura
e ha bisogno di uno strumento per realizzare questo tu
può imparare a fare ciò che abbiamo trovato
quello che abbiamo scoperto è che questi sistemi sono
molto meglio a imparare se loro se tu
inizia con un problema facile e poi
renderlo sempre più difficile
e che progredisce da un livello a quello
il prossimo è dopo la laurea quando si soddisfa
un certo benchmark certo sì e allora
lo facciamo è che prima ci alleniamo senza
un muro è facile e poi solleviamo il
muro a un certo punto non può saltare il muro
tutto solo e ha bisogno di utilizzare uno strumento per ottenere
su di esso sì ecco un grafico interessante
oh scusa, arriverò al grafico in a
momento qui è solo quello che sembra
il muro è basso, può saltare se stesso
muro è un po ‘ più alto ha usato il
cosa arancione si dal modo in cui impara
questo basato sugli stessi algoritmi tutti
il tempo in cui tutto ciò che ho mostrato è solo un
algoritmo molto semplice usando
apprendimento di rinforzo qui sì è un
roba molto semplice risolve quello che penso sia
due problemi abbastanza complessi sì, ecco qui
il grafico interessante
prendiamo prima quello arancione
quello arancione è dove prendiamo il problema
il problema più difficile è la palla
veramente alto ha bisogno di spostare il mattone
e così via, quello è quello arancione
richiede molto tempo per imparare e mai
diventa davvero bravo , è a
un po ‘troppo complesso subito si
ha trovato è sulla linea blu è che se
lo rendiamo facile all’inizio e poi
incrementalmente sempre più difficile e
più difficile impara molto più velocemente e il
il modello alla fine della giornata è molto
più performante molto meglio di quello
se saltiamo proprio dentro la bestia
problema di forza sì o in una forza bruta
la soluzione al problema non è quella
interessante perché è proprio come noi
i bambini e gli animali imparano sì, noi
impara in un curriculum che apprendiamo passo dopo passo
passo non andiamo solo al 12 °
vota subito e si laurea dopo l’anno
si, solo che non possiamo imparare in questo modo
abbastanza divertente questi semplici algoritmi
avere la stessa proprietà yeah, quindi lascia
io salto a qualcos’altro questo è
ispirato dalla biologia dove animali e
persone umane abbiamo qualcosa chiamato
la memoria di lavoro è nel software
mondo nel mondo machine learning
chiamato lsdm è un lungo periodo
capacità di memoria quindi ecco un problema
che la vaniglia è lo standard
Algoritmo di rinforzo per l’apprendimento I just
ha dimostrato che non puoi risolvere il mio futuro
in questa stanza arriva l’agente
vede un grande mattone di fronte a lui il
mattone può essere arancione o rosso se
è arancione e prende l’uscita arancione rossa
prendi l’ uscita rossa sì, quindi è necessario
ricorda perché vede il mattone allora
lo passa e non lo vede
più a lungo e ora ha bisogno di scegliere il
destra esci la funzione inversa qui è
molto semplice è la funzione inversa
più uno se scegli l’uscita giusta
meno uno se si sceglie l’uscita sbagliata da
il modo in cui non lo diciamo nemmeno
è il colore che conta solo che diciamo
più uno meno uno si va e capire
cosa intendo con quello
sì sì apprendimento di rinforzo standard
sarà nel momento in cui non vede cosa c’è
andando nel momento in cui passa e non lo fa
vedere la pausa più non è così
ricordo davvero qualcosa sì, quindi abbiamo bisogno
per gettare un po ‘di memoria lì dentro
perché è quello che abbiamo sì
quindi stiamo barando un po ‘, siamo noiosi
dalla natura quindi se ne aggiungi un po ‘
la memoria lì dentro può davvero
a seconda della profondità della memoria per
i prossimi 10 15 fotogrammi effettivamente ricordano
il richiamo di quella pausa qui così sembra
sembra un po ‘come questo nel lavoro 10 vedi
l’arancione in cui si muove non è in uscita
scatola non ha visto il rosso va al
uscita rossa sì okay la cosa interessante
ecco come ho detto che siamo solo noi
solo dire sì o no, bene o male quando
esce non abbiamo mai dire che è il colore che
potrebbe essere stata la forma che potrebbe avere
stato forse location, non lo so
potrebbe essere in qualcos’altro che impara
ricorda il colore così ti mostra che tu
aggiungi un po ‘di funzionalità
l’ apprendimento di rinforzo di base
capacità e ora puoi sicuramente
risolvere problemi un po ‘più difficili, sì
ti permette di mostrare alcuni dei quadri
questo è parte del codice che puoi
in realtà vai e github e scarica e
giocare con questo è un esempio di a
controllo del movimento sai che non siamo del tutto
c’è ancora ma è ancora affascinante
con un po ‘di parole e un po’
fisica sì e poi prova ed errore
questi ragazzi alla fine impareranno a guidarti
sono andati a scaricare questo software e lo fanno
questo te stesso e ora puoi iniziare
tweaking per vedere se è possibile ottenere di più
movimenti naturali del momento fuori da esso
il problema di questi movimenti è quello
la fisica potrebbe non essere completamente
accurate e possono anche essere cose
come se fossimo stanchi
correrebbe così a volte tu
sapere che ottimizzeremmo c’è molto
più ad esso che solo la fisica va bene
c’è anche il nostro, tu sai il nostro noi
voglio risparmiare energia
sì, quando corriamo vogliamo correre
ragionevolmente efficiente sì, forse avere
braccia come questa probabilmente non sono una buona idea
si ma questi ragazzi non si stancano
sì, questo è quello che sembra
fisica sì sì, quello che voglio fare ora è
Voglio immergermi un po ‘più in profondità
e avvicinandoci un po ‘a cosa
Stavo parlando di artificiale
intelligenza generale sì e ti mostro
un esempio che sarebbe stato molto
difficile da trovare in modo puramente interno
mondo delle imprese sì, stiamo parlando
su premi estrinseci e intrinseci così
così ancora quando te ne vai oggi
sentito parlare di funzioni di ricompense
sì, proprio come alcuni anni fa
qualcuno ti ha detto se le affermazioni
ciclo di ricorsione per tutto il resto
vai via e pensa che le ricompense funzionino sì
perché questo è quello che è il futuro
porterò sì sì estrinseco e
premi intrinseci quindi premi estrinseci
sono cose come cattura raggiungere raccogliere
sta facendo qualcosa nel tuo ambiente
sì lo vedi spesso nei giochi in cui tu
raccogliere punti punti salute monete d’oro
qualunque cosa si chiami nei giochi, sì, lo è
c’è molto specifico per l’ambiente
qualcosa nell’ambiente che tu
raccogliere e costruire sì abbiamo confrontato a
risolvi l’idea di diventare ricco sì così
diventare ricco
questa è una ricompensa estrinseca, va bene ora
parliamo di premi intrinseci quindi
esempi di premi intrinseci sono
curiosità, pazienza e impazienza
resilienza felicità amore empatia sì
quindi vediamo quando l’hai usata per l’ ultima volta
termini nel tuo in un’impresa
applicazione sì , non sì, ma io
ti mostrerò un esempio qui di
la curiosità, quindi le ricompense intrinseche sono super
importante sai perché, perché tutti noi
averli e la natura non è mai
non fare mai nulla che non sia necessario
sì, noi e gli animali siamo intrinseci
anche i premi sono così che sopravviviamo
di nuovo ai principi di base
di sopravvivenza sì, sì, è una ricompensa intrinseca
qualcosa di natura sviluppata per uno scopo
sono specifici per l’agente e io
rispetto al tipo di diventare felice contro
diventando ricco sì e potrebbe essere un po ‘
parte filosofica lascia che ti mostri lì
sono limiti al rinforzo standard
imparando ti ho mostrato la memoria di lavoro
estensione sì sì l’abilità
l’apprendimento di rinforzo non ha un
memoria così ora noi aveva una memoria ad esso buona
si
ora quando lavori in quello che chiamiamo a
spazio spargolo premio possibile cosa
lo spazio è ciò che ho chiamato e ottengo a
catena di eventi christy chiunque sia ancora qui
leggi Agatha Christie si un po ‘io
non volevo ammetterlo o forse guardare il
film il problema con Agatha Christie
questo mi fa impazzire è ridicolo
scenari improbabili dove qualcosa
è improbabile che accada mai
succede ma poi qualcosa che è anche
altrettanto improbabile che accada
succede anche sì e poi tutti questi
anche cose così improbabili vengono
insieme in qualche incredibile improbabile
scenario e ed e questo è il tipo di
ed è come se non fosse mai
non lo avrò mai nella vita reale, sì
quindi pensa che tu sia una macchina
sistema di apprendimento che si trova in questa catena
di scenari altamente improbabili, quindi lasciami
fai un esempio sì
un agente entra in una casa della casa
ha molte stanze in una della casa e
una delle stanze in una stanza a caso una spinta
il pulsante appare quando si preme quella spinta
pulsante una piramide apparirà in un altro
camera
ci sono anche alcune piramidi statiche
in giro per ingannare un po ‘ma un nuovo
la piramide apparirà in una stanza che farai
devo andare a rovesciare quella piramide
e prendi la barra d’oro in cima a quello
piramide sì va bene in modo da pensare che
dalla prospettiva della casualità, sì
a caso vieni in questa casa e
a caso, esplorerai il
stanza e trova il pulsante e vai
attraverso tutta questa catena di eventi, sì, io
posso dirti che con uno standard
algoritmo di apprendimento del rinforzo
esplorando a caso non lo sarà mai più
imparalo credo che l’abbia imparato una volta
dopo milioni e milioni di episodi
abbiamo provato molte volte solo davvero improbabili
che casualmente inciamperà
questa catena di scenari molto improbabile
sì, ma la natura ha risolto questo facilmente topi
correre intorno ai conigli che ci girano intorno
correre in giro cercando di trovare qualcosa
sì, noi possiamo come gli uomini imparano molto
sequenze improbabili e risultati di
loro sì, quindi dovremmo favorire l’agenzia
casualità dovremmo sostanzialmente pensare
sulle ricompense intrinseche come posso
aggiungi qualcosa al mio rinforzo
imparando che rendono più che lo rende
più efficiente sì , aggiungiamone uno
curiosità intrinseca della capacità
quello che ti mostrerò qui è un pezzo di
la matematica la cosa interessante è che noi
sono stati in grado di esprimere la curiosità
matematicamente e c’è un intero reale
movimento ora nella comunità di IA è
chiamato il movimento log negativo sì sì
normalmente quando facciamo qualcosa in macchina
imparando cerchiamo sempre di minimizzare il
errore ora vuoi essere tu vuoi essere
come un buon predittore possibile sì
questo è sempre sul minimizzare il
tasso di errore sì, quello che abbiamo trovato è quello
giriamola, massimizziamolo sì
cosa significa massimizzare il tuo errore
vota significa che provi a fare un
Predizione sul tuo ambiente
e ora scegli questo
imparerò a scegliere quello che tu
farà il più grande errore in giro
sì, così sarai massimizzato
imparerò cosa non sai ancora, sì
quindi cosa significa ciò significa
massimizzare l’errore invece di minimizzare
è che ora preferiamo le transizioni
hanno un alto errore di predizione in loro
in cui diciamo bene io non so che cosa è
succederà se lo faccio così lasciami fare
è davvero una soluzione così semplice
e lascia che ti mostri questo è casuale
esplorazione sì, l’ agente è proprio ogni
la mossa è casuale sì sì, non è davvero
capire molto qui è sì
perché non c’è un piano è solo
casuale sì, se stavi cercando
roba a casa questo è probabilmente come me
cercare cose a casa è come questo
sì, sono come non vedo niente
trovalo sì sfortunatamente guarda questo
ragazzo qui questa è la cura non è solo
solo la curiosità dei premi intrinseci
guarda cosa sta facendo non risolve
il problema ancora ma va in qualche modo
da una stanza all’altra si vuole davvero un
ora ha trovato che il pm è questo
cosa succederà se tento di bussare
questo su di te è solo un po ‘di più
esplorativo sì , fondamentalmente va
è sistematicamente da una stanza all’altra
solo cercando di cercare costantemente cosa
ciò che sa di meno su di lui
allora mettiamo l’intrinseco intrinseco e
estrinseco insieme sì, sii curioso
e cerca di diventare ricco allo stesso tempo e
ora è molto più diretto sembra
trova il pulsante storico di pulsante
questo non viene ingannato da tutti i
altre piramidi trovo solo quella
con il cubano dorato vai e prendi il
boom del tubo risolto nuovo pulsante, sì sì
Stavo pranzando ad una conferenza
un paio di due mesi fa uno di questi
Pranzi americani con il tavolo sbagliato
e tutti seduti a parlare e
il professore mi ha detto che c’è
limiti al rinforzo che apprendono questo
sai che i problemi sparsi non possono essere risolti
chiaramente entreremo nella prossima AI
finestra sì l’ idea sono come no no
Pensa che questo è un problema molto complesso
qui loro hanno tenuto questo discorso per qualche mese
fa forse quattro mesi fa e un mese
un paio di persone sono tornate da me
da questo da una società in Francia e
detto oh stiamo effettivamente implementando questo
nel nostro riprendere le nostre raccomandazioni così
invece di scegliere casuale
film o libri casuali o casuali
prodotti per mostrarti sì che il
il sistema deve fare ciò che ha bisogno di guardare
l’intero catalogo prodotti e dì chi sono io
non ti ho mai visto mai e poi mai toccare
un libro di fumetti di fantascienza proviamo. Proviamo
quello proviamo il più improbabile
prima il prodotto e poi lavoriamo
attraverso di essa e impara il più possibile
su di te si essere curiosi di no
casuale
si, è molto importante
osservazione qui sì solo aggiungendone uno
ricompensa intrinseca non ho proseguito
Wikipedia e vedrai questi
cose intrinseche e persone che persone
discutere là fuori
otto sono loro 40 non lo so, sì
okay, facciamo qualcosa che è un
un po ‘più divertente
questo è Papo Papo è un meccanico
buio meccanico virtuale sì
ha giunti piccoli motori e quello che sono
mostrerò che è qui un gioco
personaggio e può imparare a camminare correre
gira salta tutto da solo, quindi
nessun essere umano ha mai fatto niente a questo cane
si
è puro apprendimento di rinforzo e
c’è solo una ricompensa che riporta il
bastone sì, così abbiamo mandato i cani dentro
campo di addestramento e puoi vedere che sono
non sono davvero bravo a muoversi, sì loro
non può nulla non c’è no non c’è
l’animatore qui non ha software
ingegnere che ha detto che è necessario spostare il
gambe come questa e ha bisogno di guardare questo
modo ecc. ci provano ancora e ancora e
oltre e ad un certo punto sembra così
sì, questo è completamente appreso a macchina
personaggio lancio il bastone con il
il mouse va e prende il bastone che impara
spostarlo non è perfetto o forse lo è
sì lascia cadere il bastone, lo prendo in mano
cosa è successo lì quando colpisce il
bastone e sai sì voglio dire come
non c’è artista qui non c’è
ingegnere del software che sostanzialmente ha capito
tutto fuori
c’è solo tensorflow su google cloud
capire tutto velocemente sì
Posso anche prendere questo tizio e metterlo
su un telefono è per questo che ho detto che lo sai
costruisci l’ ambiente che conosci
erba e il buio ti allenarlo avete
un modello lo metti sul tuo Android
iPhone e qualsiasi posto ci fosse sì
avere un modello del buio che insegue il
osso sì, perché non hai dieci sì, quello che tu
abbiamo qui è Avete dieci macchina
modelli di apprendimento che dirigono ogni cane
individualmente prendono spazio così ma
loro tutti e tutti vogliono lo stesso
cosa sì di nuovo non è codificato è
ho imparato ora che ne abbiamo 50
succede fuori su alcuni di loro fuori
sul lato ci guardano fanno
Cadono sopra sì ci andiamo yeah voi
essere spinto e cadere è tutto
fisica in atto sì tradizionalmente cosa
lo fai in animazione in questo caso è quello
normalmente applichi un po ‘di fiore
un algoritmo di folla sì, ma qui è
solo interazione tra 50 modelli e
fisica si ok abbiamo tonnellate di
ambienti che più ambienti di
e meno lista qui si può andare e
scarica tutto su github e gioca con
tutto ciò che ti ho mostrato è lì
inclusa la curiosità sì , è lì sì
quindi è facile da usare ed è una specie di
condurre liberamente ricerche quando si tratta di
apprendimento automatico e intelligenza artificiale e c’è
tanto altro da venire yeah la biologia ha un
fantastico viaggio nel negozio per noi sì
attenzione lo sapevi che un uber
l’auto a guida autonoma ha 600 sensori sì
600 sensori ha 16 telecamere che sembrano
molto indietro come in avanti: la guida
sì, la natura ha inventato l’ attenzione perché
altrimenti il nostro cervello sarebbe come
ginormous e tu spendi conosci tutti
essere – vero
attraverso kilowatt e non 20 cosa
computer sì qui perché lo faremmo
devono sapere tutto quello che succede tutti i
attenzione al tempo
limita il consumo di energia a
fondamentalmente concentrati e basta elaborare ciò che è
importante per noi sì, quindi potremmo imparare
da quell’apprendimento one-shot ci sono
cose che impari una volta nella vita come mettere un
cosa e una candela quando hai due anni
vecchio e non lo farai mai più
sì, una memoria funzionante ho mostrato il tuo
memoria di lavoro che è il lsdm
continuo imparare la la cosa che
sai che impari costantemente quale
è davvero molto difficile anche negli umani
sì, quando sei ragazzo sei davvero bravo
imparando cose nuove sai cosa
succede nei modelli di apprendimento automatico quando
sono davvero bravi a imparare nuovi
roba loro dimenticano questa roba loro solo
ho imparato i bambini lo stesso che ho avuto i bambini che
parlava correntemente il giapponese perché vivevamo
lì e poi ci siamo trasferiti negli Stati Uniti e
sei mesi dopo non potevano nemmeno
contare fino a tre più tempo dopo
la vita siamo meno elastici nei nostri neuroni
quindi non impariamo nuove cose con la stessa facilità
ma non dimentichiamo altrettanto facilmente
fino a dopo, ma questo è un
storia diversa sì immaginazione mi è
mi disturba sempre quando vedo le persone
dicendo che i computer non sognano che è il
l’unica cosa che i computer fanno sì che corri
simulazioni in streaming di cui ho parlato
valori intrinseci che non ho dimostrato che sì
Ho un’altra demo di gerarchico
anche l’apprendimento, che è molto che facciamo molto
di quello in cui i nostri occhi stanno facendo uno
cosa e poi dicono al nostro corpo
reagire a quel modo da avere un
la decomposizione in atto è molto
molto efficiente sì, quindi tutte queste cose
Ti ho mostrato qui è fondamentalmente ispirato
dalla biologia facilmente implementabile in un gioco
ambiente e quindi puoi farlo
davvero spingere i confini sì, quello che io
voglio dire che qui è
è solo biologia, sì, e voglio farlo
lasciati con un solo pensiero qui
che è il cervello umano oggi l’ultimo
100 anni e gli ultimi mille anni
sì, il cervello umano è lo stesso
era cinquantamila anni fa quattro
centomila anni fa sì sì
cervello umano centomila anni fa
erano esattamente capaci come il nostro cervello
oggi il DNA non è cambiato sì sì
cos’è che ha portato a questo drammatico
rivoluzione nelle nostre capacità che conosci
ventimila anni fa diecimila
anni fa forse l’agricoltura aveva dieci anni
mille anni fa
la rivoluzione scientifica cinquecento
anni fa e le cose si muovono in modo esponenziale
se il nostro cervello non è diventato più intelligente
perché non sono diventati più intelligenti
la stessa potenza di elaborazione è in quei cervelli
sì, è quello che trovano
modi interessanti di lavorare insieme
creare strumenti che non ottengono
dimenticando che il nostro oblio è dimenticato
e vengono riutilizzati da altre persone
persone in piedi mentalmente sul
le spalle l’una dall’altra sì
tutto quello che vi ho mostrato oggi con
la curiosità è lunga tutte queste tecniche
sì, è davvero solo un singolo agente
comportamento sì i 50 dark o il 50
i cuccioli che hai visto correre sono
individui non sono loro sono solo
occupare spazio ma non lo sono
cooperando sì in modo che quando si arriva a
intelligenza artificiale artificiale sì
è quando tutte queste asiatiche iniziano
collaborando e non abbiamo davvero
l’ho ancora scoperto
lo faremo e succederà
i prossimi anni è che lo faremo
Comincio fare un passo fuori da questo sarò get
questo modello unico di apprendimento automatico sono
otterrò questo singolo computer
questa cosa dove stiamo andando a vedere
dove noi
dimmi che avrò un migliaio di macchine
modelli di apprendimento che lavorano insieme a
risolvi un problema sì, disegna l’analogia
qui tra il cervello umano ed è
è nel suo esponenziale
crescente capacità di fare le cose
senza che il cervello individuale sia molto
oggi più intelligente di 50 100
mille anni fa sì, impariamo
dalla biologia, ma non fermiamoci qui
e non ci fermeremo qui perché lo faremo
iniziare a passare ad altri aspetti di come
per creare sistemi cooperativi così quelli
tutto quello che ho per te oggi
benvenuto a connettersi penso che ne abbiamo alcuni
il tempo per le domande è quello giusto, sì, noi
facciamo ma facciamo prima un applauso
per tesoro
[Applausi]

Please follow and like us: