Press "Enter" to skip to content

GOTO 2017 • Improving Business Decision Making with Bayesian Artificial Intelligence • Michael Green


[Musica]
[Applausi]
ciao a tutti come hai sentito il mio nome
michael green e sono davvero qui per
ti parlo di un approccio diverso a
per costruire algoritmi e costruire
I metodi di apprendimento automatico sono davvero anche io
andando a discutere che lo sono
fondamentalmente la stessa cosa e tu lo farai
lo vedo un po ‘più avanti nel mio discorso
ma questo è fondamentalmente un crack
Parlerò della panoramica di
AI e apprendimento automatico e io non sono il
il primo a fare questo e ci sono molti
di persone che hanno la loro opinione su di esso
ma questa sarà la mia opinione, ci proverò anche io
estendere a voi l’idea e il concetto di
perché questo non è abbastanza siamo molto bravi
a dirci che siamo venuti
Davvero lontano in AI e vorrei davvero
tendono a non essere d’accordo con quello che penso che siamo
stiamo giocando sulla pedalata
piscina e semplicemente non abbastanza bene noi
necessità di innovare questo settore che dobbiamo essere
meglio parlerò anche di come
la percezione contro l’inferenza può funzionare
un computer farò una breve nota
sui nostri cervelli pazienti perché è così
fondamentalmente come ragioniamo come
persone almeno da macroscopiche
prospettiva parlerò anche un po ‘
sulla programmazione probabilistica e sul perché
Lo vedo come un punto molto importante per
sposando due campi molto diversi o
campo differenziato oggi e nel
fine mi legherò tutto questo insieme in modo che
puoi vedere come puoi realmente
distribuire praticamente una soluzione come questa
ma fondamentalmente se torniamo a
di base quindi so molto di diverso
definizioni di intelligenza artificiale
ce ne sono molti là fuori
e nessuno di loro dice la capacità di
guidare una macchina senza schiantarsi
semplicemente non l’intelligenza artificiale quella
è che è qualcosa che risolve a
problema specifico del dominio che è
sfidando sì ma non è nemmeno l’intelligenza artificiale
sta diagnosticando una malattia di salute in a
pagina
che entra nel pronto soccorso anche questo non è un
Neanche io sono effettivamente bene in quello che faccio
la mia azienda che non è anche AI tutti
quelli sono esempi di IA ristretta dove noi
prova a usare le macchine per fare più intelligente
cose che potrebbe una persona individuale
fare allo stesso compito ma la mia definizione di
L’intelligenza artificiale è fondamentalmente che è una specie di
comportamento mostrato da un agente che tu
roba in un ambiente e quello
il comportamento in sé sembra ottimizzare il
concetto di libertà futura ora che è
la definizione più vicina a artificiale
intelligenza a cui posso venire
perché questo non ti dice niente
sappi che sì ottimizzi il minimo quadrato
Errore di fare propagazione posteriore nero per a
assicurarsi che il riparatore di croissant
sembra buono tutte queste cose sono
fatto dall’uomo e ti assicuro che facciamo il nostro cervello
non fare propagazione Brack semplicemente non lo è
vero
nessuno sta dicendo ai nostri figli come
alzati non vengono picchiati
le mani per aver fallito mio figlio ha fallito
molte volte questa mattina ma lui
in realtà è riuscito quando ho lasciato la stanza
quindi senza il mio incoraggiamento, in realtà
fatto meglio che potrebbe dire qualcosa
sulle mie capacità pedagogiche o sul fatto
che non ha bisogno del mio addestramento per farlo
queste cose quindi c’è un fondamentale
cosa che manca manca c’è
pezzo nella nostra comprensione di come
la conoscenza è rappresentata accumulata e
agito e questo è ciò che affascina
io più di ogni altra cosa sono sicuro che tu abbia
visto questo prima è solo una definizione
di quello che è oggi l’intelligenza artificiale, quindi c’è un sacco di
cose ma ma fondamentalmente siamo nel
di primo livello lì ogni singola applicazione
hai mai visto parlare di oggi
questo campo artificiale stretto
l’intelligenza non esiste come
intelligenza artificiale forte che
non esiste oggi e se qualcuno dice
loro hanno mentito perché noi
non hanno la rappresentazione di come
acquisire conoscenze nessuno ha che
semplicemente non posso esprimere questo in Python o
R o qualunque lingua tu lo voglia
non esiste, dobbiamo capire come
per rappresentare questo
così artificiale intelligenza generale che
è davvero il compito di dire come potrebbe
in realtà prendiamo un’IA che sa come
guidare una macchina in qualcosa di diverso
ambiente e farlo utilizzare
abilità che avevano imparato come
guida la macchina e applicala a a
campo completamente diverso che è il
trasferimento principale e questo è qualcosa che
nessuna IA può fare oggi
ora superintelligenza artificiale e il
l’unica ragione per cui sto menzionando questo è
perché è davvero molto lontano
l’unica cosa super di questa casa
eccellente lontano è nel futuro e
e c’è stato un sacco di persone che si
sapere di combattere su questo uno di quello
dei famosi ragazzi di Elon Musk lui è di più
di un tipo di giorno del giudizio universale con rispetto
a questo e lui e lui dovrebbero essere perché
questo gli fa guadagnare soldi nella sua compagnia
è molto intelligente
muoviti dicendo che l’IA sta per farlo
distruggi il mondo, quindi sto creando un
start-up che sta per sorta di
Regola così immagina quanto sia stato difficile
per raccogliere denaro per quell’avventura lì
sono altre cose da considerare su super
l’intelligenza e questo è così
concettualmente possibile è qualcosa
che prima o poi se catturiamo
come rappresentare la conoscenza come
trasferire le conoscenze su come accumulare
conoscenza se sappiamo che poi c’è
non ci impedisce di dispiegare questo in
il mondo e per tutti gli scopi pratici
ora sembra molto simile al muschio cosa noi
rilasciato in quel momento sarebbe fondamentalmente
un dio per noi e il tutto nel
La parte spaventosa di questo è che sarà un
bello Dio non lo sa ma poi di nuovo
ci sono poche prove nella storia
quell’intelligenza alimenta la violenza quindi se
tutto il mondo è un posto più sicuro di
è mai stato prima e lo farei
piace vederlo come un’evoluzione del nostro
l’intelligenza come evoluzione del nostro
compassione , non vedo l’ intelligenza
essere una necessità per i robot assassini
quindi non ho molta paura di quello scenario
So che non saremo i biscotti più intelligenti
più nel mondo ma forse è così
non così male
succedeva sempre e
evoluzione farà in modo che non importa
che cosa
ma fondamentalmente sembra il paesaggio
questo così sai di avere questo questo
disturbare l’intelligenza artificiale che
sorta di onnipresente e descrive
tutto dal fare un lineare
regressione in Excel a un self-driving
auto per identificare il melanoma su una cellula
telefono e e e tutte queste cose
non sono l’intelligenza artificiale ma
le scommesse diventano solo una parola d’ordine proprio come
big data Sono molto d’accordo con il
oratori precedenti su questo il modo in cui io
vedere che l’intelligenza artificiale di oggi è due cose
sono le macchine della percezione e c’è
macchine di inferenza e per deduzione
solo previsione media o sorta di
predizione intendo davvero inferenza dove
in realtà prevedi senza effettivamente
avere tutti i dati ora sotto la percezione
parte abbiamo percorso una lunga strada percettiva
le macchine sono ovunque quelle sono le
macchine che dovrei sapere come guidare
una macchina quelle sono le macchine che sanno
come identificare gli aquiloni nel nel
immagini che abbiamo visto tutte quelle profonde
apprendere le applicazioni che sono
fondamentalmente macchina percezione che possono
concettualizzare qualcosa che loro
effettivamente ottenere come input attraverso
stimoli visivi o stimoli uditivi
può essere categorizzato ma loro
non posso dare un senso e lo mostrerò
voi esempi di ciò ed è per questo che io
abbiamo pensato che abbiamo bisogno di più di cui abbiamo bisogno
entrare nella giusta inferenza dove noi
in realtà hanno una comprensione causale a
rappresentazione del mondo che siamo
vivendo in e solo allora possiamo realmente
parliamo di pura intelligenza, ma possiamo
farti conoscere più da vicino e te lo mostrerò
come farlo i maggiori problemi in
la scienza dei dati oggi che è anche un’altra
termine per intelligenza artificiale applicata
è che i dati non sono effettivamente come
onnipresente e disponibile come potresti
pensare
per molti domini interessanti c’è
semplicemente senza dati e dati lì
è estremamente rumoroso potrebbe essere un
bugia piatta su cui potrebbe basarsi
sondaggi e sappiamo che la gente mente
servizio che è anche una struttura problematica
è anche il problema con la struttura
che come si fa a rappresentare il concetto di
la struttura matematica no
necessariamente nello spazio dei parametri ma solo
strutturalmente come costruisci il tuo
strati in una rete neurale per esempio
identificabilità che intendo con ciò
quello per qualsiasi dato set di dati ci sono
milioni di modelli che si adattano a quei dati
imposta generali da quel set di dati
altrettanto bene e molti di loro no
corrisponde alla realtà fisica che
viviamo dentro
quindi ci sono verità statistiche
verità dei parametri e ci sono fisici
realtà e non sono la stessa cosa
è per questo che il mio precedente campo teorico
la fisica a volte è problematica perché
teoria quantistica quantistica che ho sorta di
specializzato in questo ha molti diversi
interpretazioni e poi nessuno davvero
sa cosa sta succedendo, ma sappiamo che possiamo
calcola le cose da ciò che fa
senso in matematica, ma non appena spingiamo
questo pulsante ma cosa sta veramente succedendo
allora sai bene che siamo fondamentalmente
fregato perché nessuno lo sa e molto
di persone piace fingere di sapere
e poi ci sono alcune persone come la
Interpretazione di Copenaghen che lo dice
beh, stai zitto e fai i conti che
è fondamentalmente non fare la domanda
perché non si può rispondere
Hawking aderisce a questa scuola dal
è anche uno dei ragazzi
chi è super spaventato dalla super intelligenza
abbastanza stranamente perché è un furbo
biscotto c’è anche la cosa su
priori così ogni volta che tu te
affrontare un problema come un essere umano qualunque
problema che ti do come individuo te
avrà un sacco di conoscenze pregresse
avrai una mezza o intera vita
a seconda di quanti anni hai
conoscenza che hai accumulato questo
la conoscenza potrebbe trasferirsi da un’altra
persona che hanno appena ti ha parlato
qualcosa, ma è possibile applicare questo
la conoscenza del problema a portata di mano è possibile
rappresentare quella conoscenza nel dominio
del problema che stai cercando
risolvere e questo è qualcosa che anche noi
in realtà può imitare oggi attraverso il
concetto di priori e questo è quello
fondamentalmente il modo di codificare un’idea o
una sorta di conoscenza come statistica
precedente e come distribuzione statistica
che può essere messo alla pari con i dati che farò
vi mostrerà in seguito come fare così
l’ultima parte, ma non meno importante
quello importante è l’incertezza che non posso
stress
quanto importante sia l’incertezza
fai il processo decisionale ottimale in pratica
non può prendere decisioni ottimali senza
sapendo quello che non sai e lo farò
sottolinea questo punto più volte durante
questo discorso durante i restanti trenta
nove minuti è davvero fantastico
posso davvero vedere quanto poco tempo ho
lasciato così non ti mostrerò di più
equazioni ed è non è perché
Sono particolarmente affezionato a loro ma loro
aiuta a esprimere idee così in alto
livello che è fondamentalmente un completo a
modo compatto di descrivere qualsiasi problema
che potresti avvicinarti è fondamentalmente a
distribuzione di probabilità sui dati
che sei una Fed, sono le X’s the
Quelle sono quelle che vuoi
essere in grado di spiegare e la Theta
rappresentano tutti i diversi
parametri del tuo modello non lo fai
sapere che può anche essere variabili latenti
concetto che sai esiste ma quello
non hai dati di osservazione per
tutto ciò è la definizione di un problema
spazio ora che cosa ha l’apprendimento automatico
tradizionalmente fatto sin da Fisher
è fondamentalmente quello che loro
guardato a questo con una domanda che
tutti sapevano che avevano torto , in sostanza
ha detto che qual è la probabilità
distribuzione dei dati che ho ottenuto
fingendo che sia casuale dato un fisso
ipotesi che non so che io sia
effettivamente cercando così poi il
il problema in realtà è diventato per tutti
applicazioni di lavorazione che tipo di
ipotesi potrei generare quello è il
più coerente con il set di dati che
sembra il mio set di dati, ma è davvero così
non è il mio set di dati e puoi chiedertelo
la domanda è che un ragionevole
domanda e poi ti dirò che lo è
non è poppycock quella domanda non lo è
vale la pena chiedere perché, perché tu sei
fondamentalmente solo cercando di trovare
spiegazioni per adattarsi alla tua verità
non scienza signore e signori lì
è solo un modo per farti scienza
postula un’idea e poi osservi
dati per vedere se è possibile verificare l’idea
o ignorarlo non puoi guardare a
set di dati quindi generare un’ipotesi che
meglio spiegarlo e pensare che sia così
in qualche modo è qualsiasi rappresentazione fisica
in questo mondo perché non è così
ed è per questo che molti
machine learning si avvicina a un sacco di
approcci statistici ha in realtà
capito dopo averne conosciuti diversi
molti anni di scienza hardcore loro
scoperto che il rischio più grande per
morendo dalla malattia coronarica è
in realtà andando in ospedale sì
questo non è vero e tu non conosci nessuno
nessuno si è fermato e invece tu sai
perché è accaduto è perché il
i ricercatori potrebbero essere danneggiati dal cervello
è stata la ragione ma ma ma ma è così
non era la metodologia che era
stavano facendo la domanda sbagliata
perché se mi fai quella domanda, posso
assicurarti che prima di morire al
ospedale dovevi andare lì così
ha perfettamente senso ma non ha
rappresentazione del problema che sei
cercando di risolvere ciò che dovresti avere
detto è dato che sei malato e tu
andare in ospedale e dato quel jack
avere qualcosa che vale la pena visitare
l’ospedale per ora è predittivo
di te che sei veramente disposto a morire
per la malattia delle arterie coronarie, quindi come facciamo noi
risolvilo e aggiustiamo ciò facendo ciò che facciamo noi
avrebbe dovuto fare dal
all’inizio e questo non è nuovo questo
la formula qui sotto chiede un altro
domanda che cosa chiede chiede cosa
è la distribuzione di probabilità della
parametri sul mio modello che non conosco
a proposito dato che ho osservato a
set di dati che è reale, non è falso
non è casuale è un insieme di dati come stato
osservato qual è la probabilità
distribuzione dei miei parametri ora
è una domanda interessante da chiedere e
questa è una domanda scientifica da chiedere ma
ciò che richiede richiede te
per dire la tua mente l’ultima parte sul
denominatore che è la P theta data X
quello dice che cosa credi sia vero
sui tuoi parametri dati il ​​set di dati
quello che hai è molto molto importante
signore e signori perché questo è il
differenza tra qualcosa di grande e
qualcosa di completamente folle
ora poi potresti chiederlo, ma va bene perché
non lo abbiamo fatto perché non poteva essere
fatto semplicemente non abbiamo avuto il
potere computazionale per fare questo ed è
non a causa del ragazzo alla mano destra
lato lì
non è anche per il ragazzo a sinistra
lato della mano e denominatore e puoi
vedere che il ragazzo sul lato sinistro
e nominato è esattamente quale macchina
l’apprendimento sta facendo oggi, perché è così
è per il fatto che lo sapevano
che il ragazzo nel denominatore che
è un integrale dell’inferno e non può
essere risolto esso guarda a tutti
valore di ogni singolo parametro che tu
e adesso lo svelo e questo lo finirà
in uno scenario dobbiamo calcolare a
molte più cose rispetto al numero di
atomi nell’universo e ci sono a
molti atomi nell’universo anche il
la parte che possiamo vedere ma
in pratica significava che tutto questo è
fuori questione quindi qualcuno se ne è reso conto
hey che non ho bisogno di calcolare quello
Non so che non mi interessa
Probabilità sai che posso solo dire
che il punto che è la volontà massima
sii uguale perché l’altra cosa è
solo un fattore normalizzante è a
costante ok abbastanza bene lo rimuoviamo
affare fatto e poi hanno detto ma il
prima di tutto cosa succede se non so nulla
cosa succede se II non voglio dire nulla che
non voglio che tu sappia dichiarare la mia mente e
sai mettere le mie conoscenze nel
problema quindi è solo la divisa
distribuzione oltre meno infinito e
infinito e urlare questa equazione
qui è stato trasferito solo al
verosimiglianza ma hai fatto un sacco di
ipotesi lì ma la gente ha appena dimenticato
che queste ipotesi non sono vere e
anche nella massima verosimiglianza che è
conosci il modo orribile di fare le cose
è fondamentalmente perché lo presumi
tutto è indipendente da te
anche quando stai facendo serie temporali
regressione che l’osservazione è
indipendente dall’osservazione – questo è
cazzate
è come dire che sai che non lo ero
l’ anno scorso non avevo un anno di meno
di quello che sono oggi, naturalmente, ero e
questo è importante
tutte quelle cose che sono temporalmente
correlati sono estremamente importanti e il
La ragione per cui lo dico oggi è quella
non c’è bisogno di barare più c’è
non c’è bisogno di queste statistiche pazzesche
risultati solo tu puoi dire la tua opinione
può fare l’inferenza e tutto ciò che può
essere fatto con la programmazione probabilistica
e ci sono molti quadri per questo
oggi incluso in Python e anche
Basandosi sulla cima della tensorflow dal
non c’è davvero nessuna scusa per non farlo
e la cosa migliore è che è così
in realtà più facile che aderire
statistiche normali perché normali
statistiche v’è stato insegnato strumenti di cui hanno
detto che se hai due popolazioni
e sono un po ‘diversi tra loro
allora usi questo strumento magico se loro
sono indipendenti, quindi ne usi un altro
strumento magico nessuno davvero capito
perchè loro solo ma qui è il t-test
in questo è un t-test appaiato e
questo è il Wilcox in questo punto tu
dovrebbe fare una regressione logistica generale
in questo dovresti solo fare un normale
regressione lineare in questo è usi
Port Vector Machine sono tutti i
stessa cosa non sono diversi lì
sono diversi presupposti nel
le funzioni di probabilità ci sono diverse
ipotesi nei tuoi priori ci sono
diverse ipotesi nel fisico
la struttura del tuo modello è tutto
non c’è altra differenza tutto
ritorna alla modellistica probabilistica e
se si può imparare a fare questi
ipotesi in modo esplicito quindi hai un
linguaggio di modellazione senza limiti
allora non devi sapere il
differenza tra regressioni logistiche
e regressioni lineari perché c’è
nessuno è esattamente la stessa cosa e
questa è forse la cosa più importante
ora aspetta la cosa più importante
Devo dire oggi dato che pensi
è importante non farlo
scienza senza assunzioni che è
impossibile solo sapere che questo non è
credo che si tratti solo di fatti fondamentali
non puoi fare scienza senza assunzione
e non riposare le tue menti fino a te
capirlo così senza in realtà
rischiando qualcosa non puoi ottenere risposte
quindi diamo un’occhiata alle reti neurali
Sono sicuro di quanti di voi hanno preso un
classe reti neurali ai loro tempi ok
allora molti di voi hanno risolto questo
problema sono sicuro di quante persone hanno
risolto questo problema prima ok qualche ragazzo
e ragazze così fondamentalmente questo problema è
è altamente non lineare , è a
compito di classificazione del tuo lavoro
separa i punti blu dal rosso
i punti di una certa linea puoi vedere questo è
una specie di spirale che non è questo
stazionario è
abbastanza brutto non è la rete neurale di Anna
sarà quante note nascoste pensi
Devo avere in uno strato non naturale
per risolvere questo 10 20 50 100 vediamo
bene con dieci note di successo posso imparare come
per separare questo non è bello ma c’è
alcuni segnali lì se usi qui
trenta note nascoste che puoi fare molto
meglio non sorprendere, ma è ancora così
ancora non va bene, perché sappiamo che questo
problema può essere risolto esattamente destra così
con un centinaio di note nascoste quasi
avere una classificazione perfetta e se
si guarda la tabella di accuratezza si vuole
vedi che l’area sotto la curva è
100% con i 100 nodi ora qual è il
problema con questo e questo è su questo
è su un set di dati di prova, mente ora il
problema con questo è che questo sembra
grande
questo sembra incredibile voglio dire il vostro compito è
fatto bene, quindi diamo un’occhiata al
superfici decisionali che sono state generate
da questi ragazzi ora alla mano sinistra
lato si ha la superficie decisione basata
su 10 neuroni nascosti e sulla destra
lato si hanno le superfici decisionali
basato su 100 nodi nascosti ora puoi
guarda qui, quelle decisioni emergono
guardare bene a te fa apparire come se fossero
in realtà hanno catturato ciò che volevi
loro di catturare No, non ha fatto e questo
è esattamente come le reti neurali lavoro che
sono troppo parametrizzati e molto flessibili
modelli matematici che faranno
tutto ciò che possono per minimizzare quella somma
quadrato o la riparazione di croissant così
non c’è penalizzazione per la ricerca
solo risultati statistici e qual è il
la cosa peggiore di questa è la cosa peggiore
qui è che si vede le regioni del
in periferia che sono di colore rosso
questo è un segnale che la rete neurale
è sicuro che non ci siano dati
là fuori a tutti
ma sa che questo ha un
classe differenziata ora potrebbe non farlo
essere un problema se lo sei se ci stai provando
per classificare sai
forse se pioverà molto di più
domani il cosa se hai un droide
con un bersaglio che uccide i ribelli lasciati
i civili vivono cosa se ne identificano uno
di quelli ti chiede di sapere uno di quelli
regioni esterne che ha senso
non è mai stato parte del set di allenamento
questa è una verità che è stata appresa da
una rete in cui i dati non sono mai realmente
mostrato a questo e non c’è
penalizzazione per questo e il motivo per cui
Sto dicendo che questo non è che tu lo sappia
non usare l’ intelligenza artificiale o non usare la macchina
imparando di fatto sto dicendo il contrario
ma quello che voglio dire qui è che essere
responsabile
ogni volta che distribuisci un apprendimento automatico
algoritmo devi capire esattamente
cosa fa perché manca
la comprensione è la più pericolosa
cosa che può esistere oggi e
non deve essere artificiale
la superintelligenza che tutto ciò richiede è a
avvitare nell’ingegnere o il
gli scienziati hanno costruito questa rete e può farlo
hanno conseguenze drammatiche in particolare
oggi nel tempo dell’auto-guida
macchine e tutte queste cose e questo
qui ti mostrerò un altro esempio di
perchè penso che questo sia interessante così
questa è solo una rappresentazione e una mente
questo è solo un singolo strato neurale
rete tra l’altro no no lo sai super
strutture profonde dove avrebbero persino
più parametri quindi voglio solo volerlo
mostra che questo problema qui
rappresentata in coordinate cartesiane è
cosa veniva alimentato alla rete neurale
e cosa dovrebbe avere la rete neurale
realizzato è quello in coordinate polari esso
sembra molto più semplice, non ora io
so che problema posso separarlo
con con un solo nodo nascosto e questo
è il mio punto su cui puoi parametrizzare
e buttare un sacco di dati ma se
inizi a pensare al problema a
mano e se insegniamo macchine per imparare
come pensare come ragionare come guardare
ai dati invece del solo numero di crunch
e questo è il motivo per cui oggi non ho paura di
intelligenza artificiale artificiale
superintelligenza perché potrei avere
risolto questo in mezzo secondo sai
anche se non si dispone di una laurea in
fisica dovresti rendertene conto
queste sono solo due funzioni seno con
con raggio crescente non è difficile ma
una rete neurale non otterrebbe mai questo
né alcun altro apprendimento automatico
algoritmo dal modo impossibile perché
non funzionano in questo modo che non è
il loro obiettivo
nel modo in cui non possiamo non possiamo arrabbiarci
loro per non risolvere quello che voglio solo
mostrarti un programma probabilistico
con questo e anche spiegare a voi
che programmazione pubblica è?
fondamentalmente un tentativo di unificare
programmazione generale e di
scopo generale intendo come Turing
completa i programmi che ci piacciono tutti
perché possono fondamentalmente calcolare
qualsiasi cosa e sposare quello era
modellistica probabilistica che è cosa
tutti dovrebbero fare tutti
qualunque sia il modello siete pazzi siete
facendo la modellazione probabilistica solo
accettato un sacco di supposizioni che tu
non ha fatto e e questo è un
la consapevolezza che anche se tu
puoi scegliere di non preoccuparti di quello che hai
per saperlo devi sapere il
ipotesi dietro gli algoritmi che
stai usando ed è per questo anche se
sta tentando molto di licenziare il tuo
carico linguistico di programmazione preferito
scikit-learn o tensorflow o sai
qualunque sia la struttura che usi MX net
non importa , è ancora importante
capire il costo che non devi essere
un esperto in matematica dietro di esso che è
non quello che sto dicendo ma devi
capire concettualmente cosa fanno e
più importante di quello che non fanno
perché questo fa la differenza così
questo è solo per dire che potresti avere
scritto questo modello molto più facile ora questo
questo è anche un punto di rottura del
presentazioni HTML5 dal modo in cui questo è
in realtà dovrebbe essere sul
lato destro quindi grazie finestre
anche così pochi codici ci sono
fondamentalmente un modo probabilistico di
specificando il modello che lo risolve
esattamente e questo può essere espresso in a
linguaggio di programmazione probabilistico il
rete neurale che ho scritto per correggere che ha preso
molto più codice posso assicurarti
quindi i messaggi da portare a casa qui sono quello
se vedi le cose se torni a
di base e vederli come sono
affermazioni probabilistiche sui dati
su concetti su cosa stai provando
per modellare guadagni fondamentalmente un generativo
modello ottieni una comprensione di cosa
sta realmente accadendo e anche quello
significa che non si diventa pazzi
soluzioni solo statistiche a causa di
problemi di identificabilità e, e questo è
qualcosa che dobbiamo veramente andare via
dall’identificabilità è qualcosa che
sarà problematico quindi non lo farò
parlare di apprendimento profondo, voglio solo
mostrarti di cosa si tratta, ma penso che tu abbia
ha avuto abbastanza discorsi a tale proposito
messa in comune e tutto ciò che possiamo io sono
abbastanza sicuro che possiamo saltare quello che voglio
per dire però che reti neurali per
per default sono degenerati e cosa io
significa che è l’energia
paesaggio in cui stanno correndo
dove stanno cercando di ottimizzare le cose
ci sono più posizioni in questo
paesaggio energetico corrispondente al
parametri che minimizzano l’errore
e sono equivalenti a loro
corrispondono a un fisico molto diverso
realtà così come il come è il neurale
reti dovrebbero sapere e questo è
non qualcosa che tu sai che noi
possiamo progettare la nostra via d’uscita perché il
l’intera idea con la rete neurale è
questa degenerazione perché l’ottimizzazione
è un problema di spazio problematico e
Voglio solo visualizzare con il semplice
rete neurale qui perché questo ti capita
può vedere descrivere queste due reti
esattamente la stessa cosa che risolvono
esattamente lo stesso problema ma il
i parametri sono diversi ed è per questo
se ti porti da X 1 e vai al
nascosto 2 e nascosto 1 è possibile
avere il peso 1 1 uguale a 5 e andare a
un nodo nascosto 1 o puoi avere il peso 1
1 prima e vai a nascosto 8 quindi se tu
prova se fondamentalmente accendi questo
dirigetevi e spostatevi intorno a questi pesi voi
ottenere esattamente la stessa soluzione ora questo
è una fonte di degenerazione e lì
sono molti di quelli quindi immaginate ora
su cui stai impilando molti strati
uno sopra l’altro ne hai centinaia
dei neuroni quante permutazioni fai
penso che sarai in grado di raggiungere molto è
la risposta non l’ho fatto non l’ho fatto
la matematica ma solo
credimi, è così tanto in energia
lo spazio in una dimensione sembra il
uno sul lato sinistro ne vedi due
punti distinti sono equivalenti in
lo spazio della soluzione e non puoi
differenziare tra loro questo è anche
perché la regolarizzazione è una buona idea
nelle reti neurali perché fondamentalmente
ti costringe a entrare in uno di quelli
trattori e nello spazio bidimensionale
puoi vedere che corrisponde a questi
due attrattori in questa trama colorata
e poi se visualizzi questo in tutto
le dimensioni che la rete neurale
è in realtà operativo in cui è
tipicamente l’essenza delle dimensioni quindi
puoi solo immaginare quanti di questi
attrattori che hai e diverse profondità
di quegli attrattori, quindi voglio finire il mio
punto se hai perso i miei punti cerco di
lo dichiari più volte ma a volte lo sono
molto maldestro nel modo in cui io dichiaro le cose
Sarò molto sincero questo è uno di questi
le migliori reti neurali a data 2016
o 2015 è stato una versione del Linette
che è stato addestrato a riconoscere cifre e
lo fa perfettamente come abbiamo detto
prima siamo così lontani e in questa zona
sulla percezione che non dobbiamo
preoccuparsi di non essere in grado di farlo è
in realtà è effettivamente fatto e e e
è molto meglio degli umani
riconoscendo queste cose bene così andiamo
mettilo alla prova, dovremmo farlo
generare alcune immagini di rumore casuale e
chiedi che cos’è questo e in ogni singolo
immagine qui vedi che la rete è al 99%
certo che è un 1 contro 2 fino in fondo
fino a 9 quindi tutte le 4 immagini sotto lo 0
è convinto con la probabilità di
Il 99% che questo è uno 0 puoi in qualsiasi modo
capire perché questo è uno zero non posso
e né né può la rete perché
non è mai stato penalizzato in base al fatto
che non ti è permesso di trovare
strutture che non contano
i tuoi dati non ha informazioni che abbia
rimanere fedele a una sorta di fisico
realtà e questo succede
ora torna al mio punto e se non lo fosse
il numero zero
cosa succede se si riconosce uno sconosciuto il
volto di un noto terrorista con un te
conosci il comando kill on sight e questo è
solo numeri signore in loro immaginano il
complessità delle facce quindi questa è la voce
indica esattamente quanto sia pericoloso
la tecnologia è se non lo rispetti
e non si tratta di conoscere le macchine
essere troppo intelligenti non riguarda noi
essere stupidi è proprio questo
importante ricordare che abbiamo un
responsabilità di costruire applicazioni
che non hanno questo bias di conferma
in loro e questo è qualcosa che spero
che tutti voi pensare a quando si
esci e costruisci il prossimo fantastico
applicazione di apprendimento automatico perché io
non riesco a vedere nessun numero in queste immagini
ovunque e se vuoi puoi leggere
il giornale di questi ragazzi che ti ho detto
ottenere le diapositive dopo ed è a
carta molto interessante hanno fondamentalmente
provato tutto il possibile per vedere come
la rete potrebbe generalizzare con le cose
che non avevo visto prima e in modo diverso
aree di ciò che avrebbe dovuto vedere
un’altra cosa che voglio dire è questa
gli eventi non sono temporalmente indipendenti
tutto ciò che fai oggi tutto
che vedi oggi qui percepisci pensare
su è influenzato da ciò che hai visto
ieri ed è lo stesso nei dati
non è indipendente non puoi supporre
che due punti dati sono indipendenti
questa è un’ipotesi selvaggia e pazzesca
ci è stato concesso di fare anche troppo
lungo
e questa è solo una piccola visualizzazione
dal dominio che io ero
lavorando dove stiamo cercando di risolvere
come l’esposizione televisiva influisce sull’acquisto
comportamento delle persone che si spostano in
futuro e, naturalmente, se vedi la TV
commerciale oggi potrebbe influenzarti
comprare qualcosa lontano nel futuro e questo
potrebbe influenzare nessuno a fare qualcosa
oggi e quello è corso o temporale
dipendenze che anche questo deve essere
preso in considerazione se ci pensi
dipendenze causali e se pensi
sui concetti se ci pensi davvero
struttura delle cose quindi si finisce con
qualcosa che sembra un profondo
imparando la rete neurale ma dove tu
in realtà hanno
struttura che è inerente al
problema a portata di mano e questo è fondamentalmente te
forgiando connessioni tra concetti
tra le variabili tra i parametri
la morte risolve il problema a portata di mano
ma questo non ha finito
caratterizzazione questa è una visualizzazione
di uno dei modelli che
stavano correndo e Blackwood per uno
dei nostri da uno dei nostri clienti e e
questa è una sorta di complessità che tu
bisogno di dover risolvere il quotidiano
problemi ogni nodo che vedete qui è
fondamentalmente una rappresentazione di una variabile
o una variabile latente e il
le relazioni tra di loro sono fondamentalmente
bordi e fondamentalmente non ha senso
questa cosa girava ho pensato proprio a questo
sembrava fantastico e mi ha aiutato a raccogliere fondi
tempo fa
in realtà lo spinning credo fosse il
differenziare perché in uno dei
tiri che ho fatto non ha fatto girare
e non abbiamo ricevuto quei soldi e poi
tutto ad un tratto stava girando e noi
Ho quei soldi che non so se sia così
tu conosci tutte le ragioni ma la rotazione
nella mia mente ci ha aiutato, ma non c’è
non c’è alcun miglioramento visivo basato su
che quante persone hanno visto questo
prima
okay, non è divertente, okay
ma prima ho visto il primo
tempo abbastanza interessante che non avevo visto
così il problema qui è che lo sei
supposto per giudicare se A e B il
i quadrati ci sono della stessa tonalità o no
e dal mio punto di vista ci sono
estremamente differenziati sembrano molto
diversamente, ma il problema è questo
non sono in realtà sono uguali
e il motivo per cui molte persone
pensano che stanno pensare che siano
diverso è perché stiamo prevedendo
basato sull’ombra che viene proiettata
da una fonte di luce che sappiamo dove
è perché l’ abbiamo riconosciuto
modello in precedenza nella loro vita che è
anche una sorta di parzialità di conferma ma
è buono
perché questo è ciò che ci permette di
effettivamente viviamo le nostre vite ea volte noi
Erano sbagliati come in questi contorti
immagini ma ma dimostra un punto
questo perché i nostri cervelli sono molto
parziale basato su ciò che sappiamo già e
e faremmo previsioni basate su
quello che sappiamo
quindi in pratica la programmazione probabilistica
che cos’è
fondamentalmente ci permette di specificare qualsiasi
tipo di modelli che non vogliamo, non lo fai
devi pensare agli strati che non hai
devi pensare a metterti in comune
non devi pensare a tutto il
la formulazione di tutto ciò che devi pensare è
che si specifica come potrebbero essere le variabili
si riferiscono l’un l’ altro e si specifica
quali parametri potrebbero essere lì e
come si relazionano alle variabili
a portata di mano e se hai quella libertà
allora non c’è niente che non puoi modellare
il problema con questo è che non puoi
adattalo con la massima verosimiglianza di te
non posso adattarlo perché non puoi
assumi le tue osservazioni indipendenti
non posso dare per scontato che tutto sia suo
uniforme non puoi assumere quello che puoi
ma non è molto intelligente, non puoi supporre
che qualsiasi dato parametro ha una possibilità
valore di meno infinito o più infinito
ora questo in generale fa solo no
senso solo pensare al fatto
che dovresti prevedere il
i prezzi delle case, ad esempio, se lo permetti
il tuo modello per prevedere qualcosa che è
negativo quindi hai qualcosa che
potrebbe avere senso di nuovo statistico
spazio perché non c’è motivo per cui tu
non dovrebbe essere in grado di rispecchiare le cose nel modo giusto
basta guardare la parte positiva ma
per quanto riguarda la parte nel tuo modello
quello dice che i prezzi di vendita negativi sono
anche positivo che è solo un’assurdità
e e queste cose che non dovresti permettere
ecco perché è necessario specificare il tuo
priori e il concetto dei tuoi modelli
molto rigorosamente
e la cosa migliore di probabilistico
la programmazione è che non abbiamo più a
essere esperti nella catena di Markov Monte Carlo
prima devi farlo ma oggi tu
non sai che non devi
capire cosa è Hamiltonian
questo spazio non devi capire
la meccanica quantistica devi solo imparare
come programmare un probabilistico
linguaggio di programmazione che è molto facile
tra l’altro super facile se conosci Python
o R o Julia o C ++ o C o Java
imparare come programmare un probabilistico
il linguaggio di programmazione è una passeggiata nel
parcheggiare ed è ancora vero e completo
badate che ci sono molti diversi
le cose che otteniamo da questo possiamo ottenere il
piena inferenza bayesiana con il mercato
a Monte Carlo attraverso algoritmi tali
come catena Hamiltonian Markov Monte Carlo
non sapevo che trasformassi il sampler per quello
vuoi davvero fare il problema con
questo è quello che ancora oggi ci vuole
ci vuole un po ‘di tempo c’è un c’è
un altro strumento emergente che viene chiamato
differenziazione automatizzata variazionale
inferenza che è solo molto
parole diverse che dicono che accendono il
problema di inferenza in una massimizzazione
problema e avrebbero ottenuto
da qualche parte con ciò che li rende
macchina di inferenza molto più facile da montare
la cosa migliore è che anche la matematica
la biblioteca ha già questo per automatizzare il
differenziazione in modo da non dover essere
esprimendo di nuovo tutto questo
deve fare è imparare un probabilistico
linguaggio di programmazione o imparare a
framework in Python che lo supporta
come Edward per esempio ce ne sono molti
altri quadri che fanno la stessa cosa
una nota sull’incertezza ora cosa succede se io
ti ha dato un compito il tuo compito adesso è
prendere 1 milione di dollari americani
e li investirai in
o una campagna radiofonica o una campagna televisiva
ora ho intenzione di dirti che il
ha un rendimento medio di ogni campagna
stato 0.5 così il ritorno di investimento per
una campagna radio media è stata 0,5
il ritorno sull’investimento in media
Anche la campagna televisiva è stata 0.5 ora la mia
per te è come investiresti
importa molto sulla base di questo
le informazioni che vorrei salvare lo farò solo
dividerlo 5050 voglio dire perché non hanno
la stessa performance, ma cosa succede se io
anche detto che in realtà se guardi
a nostro è la distribuzione se si guarda
su tutte le diverse campagne radio
che sono stati gestiti e tutti diversi
Campagne TV che sono state pubblicate se tu
guarda oltre la media e guarda il
risultati individuali cosa hai allora
bene allora hai quella radio per
esempio e TV che entrambi hanno avuto
storicamente un investimento di ritorno di 0
che in pratica significa che non ha funzionato
potrebbe essere come qualcuno di loro
alcuni spot pubblicitari che vedi in TV
a volte sono meno che buoni tu
sai a volte vedi questi questi nudi
gnomi che corrono su un campo in erba e
stanno cercando di vendere il cellulare
abbonamenti e ogni legge capita
la connessione, ma che non ha funzionato sono
certo non l’ho quantificato ma ma
non ha funzionato su di me
allora ti dirò che il
massimo prestazioni radio e TV
è stato osservato che la radio ha avuto
nella sua storia e ritorno investimento di
nove punto tre nel frattempo la TV ha solo
aveva un punto quattro come vorresti investire
ora lo divideresti ancora a metà cinquanta
Non lo farei
ora cosa succede se ti dico che questo è
probabilmente non è la vera soluzione
o al fine di rispondere a questa domanda
devi fare un’altra domanda in
torna devi chiedere alla domanda cosa
è la probabilità che io possa realizzare a
ritorno sull’investimento superiore a per
esempio 0,3 prendiamo solo quello che è
quello che voglio ottenere ora ora noi
hanno una specifica ciò che la nostra domanda è:
e quindi possiamo dargli un probabilistico
rispondi e poi la risposta a questo
la domanda è che è circa il 40 percento
probabile per la radio per ottenere un ritorno sugli
investimento per qualsiasi istanza sopra indicata
0.3 ma è circa il 90% per la TV
ciò va di pari passo con il fatto
quella radio è storicamente più performante della TV
al massimo e hanno lo stesso
mediamente bene è a causa del fatto
che le cose sono distribuzioni le cose sono
distribuzioni e non sono caute
ora questo qui è la fonte del fallimento
di ogni metodo statistico che tu
probabilmente hanno provato prima perché
presume che tutto sia simmetrico
attenzione, la natura non lo promette
non ha mai detto che non userai Kashi
non ha mai fatto parte di alcun genere di
comandamento o informazione data a noi
per sua natura non v’è niente di speciale
la distribuzione gaussiana ce ne sono alcuni
cose speciali a riguardo ma lo sai
ignoriamo il limite centrale
teorema per ora a causa del fatto che
non abbiamo abbastanza dati per davvero
approccio che comunque così facciamo solo
ignora che per ora ora il punto qui
è che la distribuzione della radio sembra
così e la distribuzione per la TV
sembra quello qui sotto e qui tu
posso vedere che hanno la stessa media molto
diversi minimi e massimi e molto
diversa asimmetria e
questo è il motivo per cui non puoi rendere ottimale
decisioni senza sapere cosa non lo fai
sai che non puoi prendere decisioni ottimali
senza conoscere l’incertezza anche se
se conoscessi la prestazione media
la prestazione media è così grande
colpevole di cattiva scienza e cattiva inferenza
Non posso affermarlo abbastanza e questo è
anche perché non si dovrebbe mai e poi mai mai
mai trattare i parametri del tuo modello
come se fossero costanti perché loro
non è anche non è interessante chiedere
la domanda quanto siano incerti i miei dati
su questo parametro su questo fisso
parametro anche una domanda senza senso no
interessante ed è per questo che dobbiamo
tornare alle origini e farlo bene
perché fino a quando non lo faremo non lo capiremo mai
ulteriormente così se riesco a legare tutto questo
insieme ho creato un modo per
per iniziare a giocare con
questo io sono fatto un’immagine docker
fondamentalmente che è chiamato il nostro Bayesiano
o è la cifra della lingua ospite che puoi
fondamentalmente usa qualsiasi lingua tu voglia
non importa quello che voglio
mostrare qui è fondamentalmente quanto sia facile
distribuire un contenitore finestra mobile con a
Motore inferenziale bayesiano che può modellare
qualsiasi problema noto all’uomo che c’è
niente che non puoi fare con questo
quadro nulla è più generale
di qualsiasi cosa tu abbia mai provato
perché può simulare tutto ciò
hai mai provato e la maggior parte delle
proviene da cose che hai mai provato
teoria della probabilità e questo è solo un
pura applicazione della teoria della probabilità
quindi questo è un modo molto semplice per scattare
quel contenitore docker e la cosa migliore
è che le funzioni scrivi?
la teoria in là è automaticamente
convertito in resto API in modo che tu possa
esporre attraverso questo servizio docker così
hai un’inferenza pronta per l’API REST
macchina che è molto fedele al
principio scientifico senza limiti
e l’unica cosa che devi pagare
è che devi pensarci due volte adesso
per quelli di voi non mi piace o posso
crea una versione con Python o Julie o
qualunque cosa sia, non riguarda il
la lingua è
quello che voglio davvero trasmettere è quello
la modellazione deve essere riavviata, è necessario
ripensaci a come definiamo i nostri modelli
come specifichiamo i nostri centri commerciali come pensiamo
sui nostri modelli come ci relazioniamo con i nostri
modelli che non potremo mai riferire al nostro
modelli senza incertezza lo faremo
sempre esito negativo è per questo che penso che
scherzare con questo è un bene
modo per saperne di più su queste cose
questo è solo un esempio di come vorresti
in realtà uso questo così ho scritto molto molto
stupido contenitore che si chiama il
tempo stupido ed è stupido perché
ti dà sempre la stessa risposta così
non importa cosa tu invii come parametro
ti dà sempre qualcosa di stupido in modo
questo è solo per mostrarti come te
scrivere una funzione che non dovrebbe
trasmetti qualsiasi intelligenza è solo un
segnaposto è solo codice boilerplate
per voi di ingerire il tuo algoritmo ma è così
mostra chiaramente come stai trasformando
questo per riposare API ed è semplice come
questo solo parlare in giro e poi si deve
così anche se non lo sei conosci un
sviluppatore back-end o full-stack
sviluppatore è ancora facile da implementare e
gestisci le tue soluzioni e sai
contenitore docker può essere eseguito ovunque nel
nuvola può essere eseguito su Google possono funzionare su
Amazon, penso che persino lui possa andare avanti
Il cloud di Microsoft probabilmente non l’ho fatto
provare questo, ma, ma, ma presumo che
loro che possono eseguire contenitori docker
quindi se posso lasciare con un
la conclusione è fondamentalmente ripensarci
su tutto ciò che eri mai
ha insegnato tutte le lezioni di statistica che hai avuto
tutte le lezioni di machine learning applicate tutte
di esso
ripensare la sua Rivaluta che sia fondamentale per
qualunque cosa ti è stato detto perché ho capito
posso assicurarti che nella maggior parte dei casi lo è stato
una bugia flatulenta e quella menzogna no
capita per il fatto che le persone
volevo mentirti su cui è basato
ignoranza e si basa su di te lo sai
decenni di malasanità in questo campo
perchè il calcolo ha raggiunto con
noi prima era ok fare
è stato fatto perché non avevamo altra scelta
oggi non va più bene abbiamo tutto il
le scelte nel mondo non è difficile
ottenere un cluster computazionale con 200
gigabyte di RAM e 64 CPU o anche
5000 GPU quelle cose sono al nostro
smaltimento non abbiamo bisogno di prendere lo stesso
scorciatoie come abbiamo fatto scorciatoie pericolose
non meno quindi spero che penserai
che un’altra cosa è che ogni volta
stai risolvendo un problema che vorrei
a pensarci su qualunque problema
stai risolvendo qualsiasi apprendimento automatico
l’applicazione che stai scrivendo è un
applicazione del principio scientifico
per favore resta fedele a ciò che c’è
La ragione per cui ce l’abbiamo la scienza è un modo
per noi non essere di parte, la scienza è un modo
per noi scoprire le verità sul
il mondo in cui viviamo non dovrebbe essere
ignorato o preso alla leggera ed è per questo
sai gente pazza come Trump può ottenere
via dicendo che non esiste tale
cosa come il riscaldamento globale perché lo fa
non aderire al principio scientifico
quindi sai che puoi essere Trump o
puoi rimanere fedele allo scientifico
principio e quei due sono gli unici
estremi i miei amici così un’altra cosa
quello che voglio dire è sempre il tuo stato
pensa a qualsiasi cosa tu sappia del problema
Ti assicuro che quella conoscenza è
critico e importante non fingere
e cado in questa trappola più voglio
fare ricerche imparziali non c’è
cosa non capisce questo
non c’è ricerca libera da pregiudizi
nessun risultato scientifico che possa essere
raggiunto senza supposizioni sei libero
per valutare nuovamente le tue ipotesi
riaffermali è buono
questo è un progresso che è la scienza ma
prima di osservare lo stato dei dati il ​​tuo
mente e devi perché altrimenti
non hai niente di cui avere un risultato ma
è stato appena scelto dal nulla
non è niente di speciale in questi
coefficienti che sono venuti
niente e fino a quando la gente non si rende conto
questo avremo ancora applicazioni
che credono che Central Park sia il
luce rossa e non è nemmeno quella
potrebbe sembrare da un altro
scala dobbiamo fare meglio e non possiamo
fare meglio e forse il più importante
La cosa più importante è che con questo quadro
e con questo principio di pensare a te
puoi essere libero di essere in grado di essere
creativo e soprattutto tu sei in grado di farlo
hai molto più divertente costruire il tuo
modelli perché non sei costretto a
paradigma per cui è stato definito qualcun altro
tu perché ha reso la matematica carina grazie
Penso che abbiamo tempo per una domanda
qualcuno ha chiesto dove posso leggere di più
su questo tutte le buone risorse sì, là
sono alcuni grandi libri che posso lentamente
consiglio e li farò dentro
ordine dei requisiti matematici quindi se
sei un matematico o un hardcore
fisico teorico o chiunque abbia a
sfondo computazionale con un profondo
comprensione della matematica allora tu
può andare direttamente a leggere un libro chiamato
il manuale della catena di Markov Monte Carlo
questo è un libro molto tecnico e
descrive i processi dietro il
modellistica probabilistica se sei un
un po ‘meno matematico ma ancora
ha un bel po ‘di matematica voi
dovrebbe leggere la sezione relativa alla grafica
modelli realizzati dal vescovo e poi un libro
chiamato machine learning e pattern
riconoscimento ma il libro più importante
di tutti forse da leggere è uno dei
libri chiamati ripensamento statistico e
quel libro spiega un sacco di concetti
che stavo tormentando ora che tu
sapere da qualche parte lungo la linea che abbiamo appena
mi sono perso che ha sia il testo che voi
sapere è consumabile da persone e questo
ha un po ‘ di matematica in modo da poter ordinare
di metterlo nel contesto quelli sono davvero
i libri che raccomanderei a questo va bene
grazie e io twitteremo le loro risorse
vai all’hashtag vai al CPA okay
Grazie Il mio grazie
[Applausi]
Please follow and like us: