GOTO 2015 • Modern Fraud Prevention using Deep Learning • Phil Winder - Video Explode

ciao a tutti. benvenuti questo è moderno
prevenzione delle frodi utilizzando deep
apprendendo che il titolo è stato presentato abbastanza
molto tempo fa quindi direi effettivamente il
parlare è probabilmente un po ‘di più sulla macchina
l’apprendimento in generale ad ora abbiamo avuto una buona
parlare in precedenza nella presentazione del giorno
alcuni dei concetti ce ne facciamo alle spalle
sto imparando e spero di costruire
su di loro davvero così questo discorso sta per
essere un po ‘più tecnici c’è c’è
niente matematica che sarai felice di sentire
c’è anche il codice che ho provato
per te sai spiegami usando
diagrammi e immagini ovunque posso ma
è un discorso molto più tecnico quindi
spero che tu possa farti venire i denti
in esso abbiamo le solite diapositive
il proverbio per favore vota e coinvolgi
quindi si il mio nome è Phil I’m with try fork
ma siamo in prova per i lead, così siamo
abbastanza distinto dal danese
Nave madre Sì, in realtà sono un software
ingegnere nella mia vita professionale
l’apprendimento automatico è solo un po ‘di più
un hobby al quale sto lavorando attualmente
e la struttura della salsa di carne Apache per
elasticsearch si, se lo faresti se lo facessi
piace parlare di più su uno qualsiasi dei
argomenti di cui parlerò poi
per favore vedetemi o vedrò alcuni dei miei
colleghi elencati in fondo lì
Salterò le diapositive di marketing
perché non proverai a scopare e lo siamo
diviso in tre o quattro argomenti il
quello finale è l’architettura che è
più su come faremmo in questo
produzione come lo faremmo in realtà
la vita è interessante ma non lo è
davvero la cosa principale della mia mia conversazione così
Ho intenzione di passare attraverso i primi tre
sezioni e se abbiamo tempo potremmo fare
il quarto ma probabilmente finirò
parlando troppo a lungo e probabilmente lo farò
goccia che parte ho intenzione di introdurre
i motivi per cui vogliamo fornire
alcuni nuovi strumenti e tecniche da applicare
alla frode per cercare di rendere il caso alla
utenti aziendali come perché dovresti raccogliere
su alcune di queste idee e iniziare
per correre con loro lo farò allora
introdurre il tema dell’apprendimento automatico
e probabilmente ne hai avuto un bel po ‘
già esperienza ma se non l’hai
quella sarà la sezione che davvero
spiega cosa sta succedendo e perché
succede e ne ho anche parecchie
demo e alcuni dei demo sono
abbastanza semplice e molto generale solo a
spiegare i concetti ma il resto del
le dimostrazioni sono tutte incentrate sulla frode
attenzione alla prevenzione verso la finanza e
in particolare i mutui vanno bene così andiamo
crack su così al fine di fare nessuno dei
questo lavoro dobbiamo convincerne alcuni
le persone a darci un po ‘di soldi e c’è
nessun motivo migliore per convincere la gente a dare
noi un po ‘di soldi se ci sono altri soldi in
rischio nel Regno Unito abbiamo qualche Regno Unito
fatti specifici qui nel Regno Unito finanziario
il crimine è definito come non so nemmeno leggere
quello schermo quindi devo leggere da qui
scusa frode è un atto di inganno
inteso per guadagno personale o per causare a
perdita a un’altra parte quindi tutti questi
fatti e cifre specifici per il Regno Unito
ma sono applicabili alla bella
in ogni parte del mondo nessuno
quello sta provando a fare male per fare danno per
il proprio guadagno finanziario è considerato
frode abbiamo una frode ipotecaria del Regno Unito
elencato nel 2014 1,2 milioni
proprietà acquistate e vendute nel Regno Unito e
83 su ogni 10.000 di quelle applicazioni
erano fraudolenti quindi non è esattamente l’ 1%
0.8 3% e quando diciamo quando dici
frode in questo aspetto non lo è
necessariamente le persone sono come estremamente
subdolo stiamo andando dalla piccola scala
dove qualcuno potrebbe dirne qualcuno
fib sulla loro storia lavorativa o
quanto guadagnano fino in fondo
enorme enorme sai frode internazionale
nel 2013 c’era una storia di due ragazzi
chi ha inventato lì tutta una serie di
aziende che hanno inventato agenti immobiliari
che hanno inventato i topografi che hanno inventato
imprese immobiliari e costruttori e
presumibilmente avevano comprato un enorme tratto
di terra che stavano per costruire
conosci un sacco di nuove case sul
inventato o rubato l’identità di
altre persone per ottenere mutui su
quelle rispettive case quindi risulta
ce n’erano decine che sai decine
centinaia di domande di mutuo tutte
entrare in case che non erano state
costruito ancora
ma come si è scoperto, l’hanno appena preso
i soldi hanno pagato la terra originale il
il loro debito originale erano di loro proprietà
terra e poi è appena piaciuto loro solo
scappati hanno completamente inventato un
villaggio ha acquistato carichi e mutui basati
su quello e poi corse via come può
che anche così il costo totale alla fine
è venuto a circa 53 milioni di sterline
e sono riusciti a scappare con e loro
finalmente sono stati catturati ma loro molto
quasi fatta franca perché era
così imbarazzante
sai che la compagnia di mutui era così
imbarazzato per dire che questo aveva
successo non è quasi mai stato catturato
quindi lo fa diventare abbastanza grande
scala e questo in realtà equivale a
circa 1 miliardo di sterline di
applicazioni fraudolente quindi è enorme
numero enorme ma la mia interessante è
in realtà non è il caso peggiore di frode in
il Regno Unito il peggio è in realtà il credito
frode di conto corrente così tradizionalmente
cosa farebbe quello che le persone farebbero
rubare le informazioni di qualcuno aperte a
conto corrente bancario standard
un certo tipo da una banca tradizionale
che puoi fare abbastanza facilmente nel Regno Unito
e quindi utilizzare lo scoperto o usarne alcuni
strutture per ritirare effettivamente alcuni
soldi e poi e poi eseguire un ballottaggio
così che in realtà costituisce il massimo
frode nel Regno Unito ma stiamo parlando a
oggi un po ‘ sui mutui e
finalmente abbiamo la vera frode al dettaglio nel Regno Unito
gran parte degli affari nel Regno Unito è
in realtà composto da piccoli a medi
impresa di dimensioni
i grandi ragazzi in realtà non ne fanno uno
parte significativa del mercato ma non
non una parte enorme piccola o media
le aziende sono stimati a perdere
diciotto miliardi di sterline all’anno a
transazioni fraudolente così è quando
qualcuno va online compra qualche vestito o
comprare del cibo o comprare un po ‘di shopping
un po ‘ su una carta di credito e poi
forse cancelleranno una carta di credito al più presto
come ho posto l’ordine in modo che i ragazzi su
il lato di vendita al dettaglio di dover spedire tutti
questa roba solo per scoprire che la persona
sai che non esiste o
carta rubata o roba del genere e quella
ammonta a una quantità enorme e un altro
motivo per cui le aziende potrebbero voler guardare
ad alcune di queste idee è questo
legislazione in modo che abbiamo una fine del
spettro in cui ci sono persone in realtà
fare del male ai loro affari voi
potrebbe voler provare a proteggersi
ma anche questa legislazione legale
requisiti che devono essere messi in
posto per rispettare altri due in
2017 c’è il nuovo anti-riciclaggio
legislazione in arrivo all’interno dell’UE così
si applica a tutti i paesi dell’UE è
estendere il riciclaggio di denaro
regole che sono già in atto ma il
i principali cambiamenti sono che fuori dal campo di applicazione
il limite è sceso a mille euro
prima erano quindicimila
euro e questo vale per le imprese
che gestiscono le transazioni finanziarie
quindi vale ovviamente per le banche
istituzioni finanziarie agenzie di credito
roba del genere si applica anche al legale
servizi nello stato servizi anche esso
si applica ai servizi di gioco d’azzardo
praticamente chiunque stia trattando e
spostare denaro in giro deve rispettare
questa legislazione e cosa sta dicendo
è quello che ha una transazione
di oltre mille euro di cui hanno bisogno
dimostrare alle autorità che lo sono
fare la loro due diligence per dimostrare
che quella persona è un non essere
fraudolento e non usare i soldi
per mezzi nefandi come il terrorismo o
qualcosa del genere e finalmente poi
sono loro sono tenuti a presentare il loro
informazioni a un registro centrale di
informazioni e questo c’è un pozzo
c’è ovviamente preoccupazioni in precedenza
ma questo è un po ‘ oscuro e come
questo sarà effettivamente implementato
quindi ci sono ragioni finanziarie dirette
ragioni finanziarie perché vuoi tu potresti
potrebbe voler farlo è anche legale
ragioni quindi come lo facciamo al momento
bene se una compagnia tradizionale era capra
andrebbe a una casa di software e chiedere
alcuni software per fare questo lo farebbero
probabilmente ne escono alcuni
combinazione di queste quattro idee generali
abbiamo basato l’origine
tecnica così la maggior parte dei paesi ha una legge
che richiede servizi finanziari a
dimostrare il
stanno parlando con la persona reale
l’origine è questo è ciò che è
l’origine è che ho vinto una cosa che ottengo
davvero infastidito dal fatto che le banche siano dentro
nel Regno Unito hanno questa terribile tecnica
di usare sistemi telefonici automatici per provare
e dimostra di essere chi dici di essere così
attraversi tutta la serie di te
sappi che la polizia sta digitando il tuo numero ID per favore
scrivi il tuo indirizzo per favore inserisci il tuo
password per favore fallo per favore
e questo richiede circa tre e mezzo
minuti e poi non appena finalmente
parla con una persona reale che è tutto te stesso
volevo fare in primo luogo
non appena hai scritto parla con a
persona reale chiedono lo stesso
domande di nuovo e si scopre che lo fanno
questo perché queste aziende non lo sono
abbastanza sicuro che il metodo automatico
è davvero una prova sufficiente del personale
i metodi stanno effettivamente attraversando a
varietà fa la mia testa dentro e alcuni alcuni
potrebbero essere istanze meno sicure come
agenzie di assicurazione e persone che sono
non necessariamente come interessato a
proteggendo la sicurezza che possono usare alcuni
metodi davvero poco raccomandabili come quello che ho avuto
alcuni casi in cui le persone mi hanno chiesto
solo per la mia data di nascita o solo per il mio
codice postale o qualcosa del genere e
non sono completamente sicuri della tua data
di nascita è fondamentalmente una password tu
sono stati dati alla nascita non puoi cambiare
è fisso e devi conviverci
quindi è la peggior password possibile
mai esistere il prossimo gruppo di
le tecnologie sono basate su regole quindi queste
sono regole statiche che sono di solito
fornito dagli analisti che dicono di te
sapere che nessuna transazione deve essere più grande di
X o non puoi avere così tante transazioni
entro un certo periodo di tempo
qualcosa del genere e sono e
sono fantastici e stanno bene e loro
catturare una quantità ragionevole di frode è
di solito i tipi accidentali e il
fondamentalmente il non così intelligente
i truffatori proverebbero e farebbero qualcosa
sciocco come questo ma anche tu lo prendi
anche a tutti i bravi ragazzi piace quando
sei all’estero le tue carte rifiutate sempre
la prima volta perché pensano che sia
fraudolento o conosci qualcuno che cerca di comprare
una nuova macchina da un ragazzo e lui lo sai
prende denaro e tu provi a tirarne fuori 1500
Non riesci a spendere soldi dal bancomat
fallo perché sai che è contro
le loro regole statiche controllano i crediti
molte agenzie accetteranno volentieri il tuo
soldi per fornirti un numero
questo è tutto e questi numeri sono supposti
rappresentare la dignità o il
rischio che quella persona provveda al tuo
affari e c’è sicuramente un caso
c’è una discussione per usarli come
sono precisi è un’altra domanda
aggregazione e monitoraggio così è
più di un tipo reattivo di soluzione
dove gli analisti sarebbero forniti
i dati e loro sanno eseguire alcuni
domanda o fai una domanda e prova a fare
qualcosa basato su questo, per esempio
puoi avere alcuni ragazzi che trovano un
schema tra voi conosci un contanti
la macchina per esempio ha rinunciato a un grande
somma di denaro quindi l’analista quando
lo controllano quindi sono i tipi
di cose che esistono allo stato selvatico al
momento ma ora ho intenzione di iniziare
parlando di machine learning e come
possiamo usare l’apprendimento automatico per migliorare
alcune di quelle tecnologie e provare e
rimuovere alcuni dei pregiudizi o il
ridondanza o l’errore di quelli
le tecnologie vanno bene così seguendo da
la nostra eccellente presentazione questa mattina
Ho dimenticato il nome di Miss, mi dispiace
se senti che stava parlando di come noi
learn II ha anche un paio di diapositive
ma non è che è un po ‘più di base
Mi piace presentare mia figlia mia qui
lei ha 18 mesi e lei
attualmente in corso attraverso questo processo di
apprendimento ed è davvero affascinante
guarda come lo fa, perché c’è
ci sono molti parallelismi tra questo
e tra lo stato di apprendimento automatico
Algoritmi al momento e se possiamo
capire come lo impariamo in realtà
ci aiuta a scrivere algoritmi migliori e
ti aiuta a capire il
algoritmi e quindi questo è il mio
figlia con lei sua madre mia moglie
fare un po ‘di riso gustoso croccante croccante
cose quadrati di cioccolato e nella parte superiore
immagina che stia facendo esattamente cosa
la mamma le disse per favore, prendi il riso
krispies e metterli in alcuni cesti
e poi possiamo mangiarli più tardi , ma
da qualche parte lungo la linea che ha deciso di fare
eseguire alcuni test
lei ha deciso se ho messo questa cosa nella mia
bocca
andrà bene o sarà cattivo
così lei lo mise in bocca e lo fu
bene
quindi ha completamente ignorato qualsiasi
istruzioni da lì non perché
aveva imparato a mangiare il cioccolato con
Rice Krispies era una buona cosa, quindi è così
un esempio molto semplice di come i bambini
impara e come gli algoritmi apprendono
in generale tu li fornisci con alcuni
prova con qualche input e poi loro
valutare questo input e decidere su alcuni
risultato
ci vuole tempo però Shoei ha 18 anni
mesi e lei è ancora abbastanza stupido voi
sapere che lei non può lavorare che sta lottando per
metti insieme le frasi che lei può quando
lei cammina lei le crolla in faccia lei
ottiene spatole e manca una bocca e
colpisce il suo occhio ed è troppo tardi non lo è
bene così ci vuole tempo per questo
capita questo si applica agli algoritmi come
beh, ci vuole tempo per imparare che abbiamo
questo grande gioco che ama, quali sono
schede e questo è un esempio di
come fa a sbagliare, voglio dire che è lei
lei è molto brava, sì è davvero brava
Non ti ho dato l’impressione che io sia
un cattivo padre sto dicendo che è spazzatura
e sbarazzarsi di esso ma no lei è molto buona
ma in alcuni casi si sbaglia
il primo esempio a sinistra c’è a
porta però pensa che sia una casa e
lei pensa che sia una casa perché ce l’ha
quattro pareti e ha queste caratteristiche
nel mezzo che sono come quadrati
che tipo di finestre, ma che cosa
non ha ancora imparato è una casa
in realtà ha bisogno di un triangolo in alto e
quindi questo è un esempio di a
uso improprio di funzionalità quindi ci sono funzionalità
lì, ma lei sta abusando di loro per venire a
la conclusione sbagliata la seconda lei
chiama questo pollo perché non lo fa
Capisco perfettamente il concetto di un uccello I
pensa che lei lotti per farlo
capire le classi di cose che è abbastanza
felice di sapere che quella cosa è
sicuramente un uccello e quella cosa è
sicuramente un orsacchiotto e quella cosa è
sicuramente mamma e quella cosa è sua
papà è andato in giro ma lei lotta
con le cose quindi è un pollo così
è così che va bene, ma questo è solo un
esempio di una classificazione Mis e poi
finalmente abbiamo la terza immagine e
a quanto pare è una tigre ora sono uscito
quando mostro questo gatto, lei sembra tipo
a me e va, non sono sicuro di cosa sia
e poi guardo la macchina andare
Non sono sicuro che sia l’ idea, credo
a volte va a fare un gatto qualche volta
lei va per
a volte non lo so
so anche come è
è come se ci fosse qualcosa sopra
un gatto che è stato investito fondamentalmente e
questo è un ottimo esempio di dati solo cattivi
così nella vita reale otterrai quei dati
e c’è un grande metodo di pulizia che è
necessario per cercare di impedirvi
ottenere questi dati errati perché lo farai
venire al risultato sbagliato così solo per
Dimostrare che non è solo la sua età che ho
ho un esempio per tutti voi quindi prendete un
guarda questa foto e io me ne vado
per guardarti per un secondo a destra così così
per tutti i programmatori là fuori questo
è come un equivalente umano di come a
stack overflow quindi cosa inizi a fare
cerchi di concentrarti sui loro occhi
ma poi ti rendi conto che ha gli occhi
in un posto diverso, quindi fai un salto
attraverso e poi ti rendi conto che la bocca è
nel posto sbagliato, quindi salti di nuovo e
sei su e giù e su e giù e
se la fissi abbastanza a lungo inizi
sentirsi male così e ma tutto
questo sta dimostrando che hai imparato
alcune cose specifiche nel tempo che hai
si sa vale la pena di dieci anni di esperienza di
dì che faccia dovrebbe sembrare
e quando non sembra che tu
non so come elaborarlo e
possiamo sbagliare non ci sono gli umani
scusa infallibile completamente infallibile
sono sbagliate nella scelta delle parole che sono
completamente ok fallibili così di passare a
gli argomenti più tecnici qui macchina
l’apprendimento comprende una sorta di quattro elementi
componenti distinti che stanno provando tutti
fare leggermente separare cose diverse
il primo oggetto è dimensionalità
riduzione così quando pensiamo di dati che esso
ha un numero di dimensioni e di
le dimensioni sono fondamentalmente medie come a
unico punto di informazione quindi se tu
immagina un’immagine in scala di grigio 10 per 10
che ha un centinaio di dimensioni a
cento pixel in là che tutti
rappresentano un distinto pezzo di dati
il problema è che con le immagini
va bene, ma per molti altri tipi di dati
è davvero difficile da provare e visualizzare
cosa sta succedendo, quindi devi
comprimi quello spazio in due o
tre dimensioni per poter effettivamente
guarda cosa sta succedendo , quindi questo è l’atto
riduzione della dimensionalità che abbiamo
clustering dove stiamo cercando di assegnare
un output per una certa classe
abbastanza spesso sappiamo quale classe dovrebbe
appartenere o almeno dovremmo sapere come
molte classi ce ne sono almeno così
il clustering è il processo del tentativo di
raggruppa le cose in modo distinto
classi abbiamo classificazione che
è collegato al clustering dove è
di più ponendo la domanda esattamente dove
metto la linea per dire che è la classe A
e questa è la Classe B e infine
regressione che sta cercando di prevedere un
valore basato sui loro precedenti input
abbiamo anche diversi tipi di
imparare l’ apprendimento è la chiave
cosa che è veramente abilitata in profondità
imparare a venire alla ribalta è
che le nuove tecniche di allenamento che
sono stati sviluppati sono molto di più
potente di quello che erano in passato
la formazione può essere suddivisa in supervisione
e l’apprendimento senza supervisione è supervisionato
l’apprendimento è dove ci si aspetta
risultato quindi è un’etichetta etichettata in modo che tu dica
che si suppone che questi dati grezzi appartengano
alla classe A questo dovrebbe essere il
il numero uno o questa persona è fraudolento
l’algoritmo viene quindi addestrato
parametri dell’algoritmo e poi
sintonizzati per provare e produrre lo stesso
risultato e la misura di
la prestazione per quell’algoritmo è
rispetto al vero risultato rispetto al
ha predetto Frizzle e poi quando lo eri
usarlo nella vita reale se lo avessi
nuovi dati in arrivo che useresti
quei pesi pre- appresi e lo faresti
prevedere un output basato su quello per
senza sorveglianza
non hai risultati, quindi non lo sai
esattamente quale classe dovrebbe
appartengono ad algoritmi che sono allenati in te
bisogno di decidere su cosa sta per
fornirti una misura di quanto è buono
i tuoi algoritmi sono addestrati, quindi alcuni
di loro decidendo se i dati sono vicini
o lontano così poiché questa misura
distanza tra i dati c’è anche
potrebbero essere altri motivi per cui vuoi farlo
come bene e si può fornire il proprio
stiamo parlando
personalizzato o personalizzato
funzioni effettivamente costare se il tuo
uscita sta per essere etichettati come classe 1
o classe 2 se qualcosa è importante ma
nel vero nel mondo reale la maggior parte dei dati
è solitamente semi-supervisionato
di solito inizi con qualche etichetta
dati e di solito molto di più
senza etichetta in modo da poter combinare
queste due cose insieme forse a te
puoi usare le cose etichettate per iniziare
tira fuori alcuni dei cluster e poi
applica i dati senza etichetta a tuo nome
davvero riempiendo lo schema un po ‘di più
parliamo di alcuni specifici
algoritmi ho intenzione di parlare di
ogni ragazzo ha il suo preferito
algoritmo questo primo si chiama a
albero decisionale e ce ne sono vari
diversi tipi di albero decisionale ma
stiamo andando a bastone per il semplice
per ora e possono essere usati per
classificazione e regressione e il
l’idea è che predicono l’obiettivo di
il valore obiettivo di una classe o un valore
o qualcosa basato su qualcosa di molto semplice
regole decisionali quindi è meno di 10 o
più grande di 10 è etichettato come o
etichettato come B l’esempio in cui ci siamo arrivati
il vero è abbastanza morboso in realtà questo
è un albero delle decisioni che è stato appreso
dai dati forniti dal Titanic
si manifesta e questo è predire se
sopravviverai se tu fossi su
il Titanic o meno così la prima domanda
si chiede è il sesso maschile, quindi se lo fosse
sì, allora scende a un lato del
albero a sinistra se non era vero
lungo il lato destro dell’albero, quindi se
eri femmina, hai avuto un buon risultato
possibilità di 0,73 quindi una probabilità del 73% di
sopravvivere e che rappresenta il 36% della
intera popolazione all’interno del Titanic o
come se fossi maschio e se lo fossi
sopra 9.5, allora hai un grande abbastanza
possibilità che tu stia per morire
purtroppo il 61% di tutti i maschi di un 9,5
è morto e puoi vedere che puoi andare
giù dall’albero e tu puoi fare un
decisione basata su queste regole così il
l’idea dell’algoritmo è di addestrarli
parametri questi regole questa decisione
punta a fare il giusto in modo ottimale
decisione
quindi è concettualmente abbastanza semplice
gestire i dati categorici che è fantastico
perché alcuni algoritmi non possono che farlo
in particolare, gli alberi decisionali possono
è piuttosto brutto, ma ce ne sono molti
di metodi
usare gli alberi decisionali in un altro
modo per evitare il sovradattamento, quindi non farlo
preoccupati di questo troppo e decisione
gli alberi sono solitamente uno dei più semplici
e a volte abbastanza efficace da risolvere
un problema il prossimo algoritmo e cosa c’è
circondato da un sacco di hype al momento
l’apprendimento profondo è così profondo
è davvero buono perché ricordi
quelle classi di tipi di algoritmi a
l’inizio non ha in realtà fa tutto
loro fa la dimensionalità
riduzione della classificazione il
regressione e il raggruppamento potrebbe farlo
fare tutto questo è un santo graal di
algoritmi che nessun altro algoritmo può
effettivamente fanno tutte le stesse cose l’idea
è che in realtà sta provando a modellare
il nostro processo di apprendimento nel nostro cervello
fondamentalmente sembra modellare i neuroni
e le sinapsi nel tuo cervello per fare il
tipo simile di compiti è è
semplificato in qualche modo ma questo è quello
l’idea generale quindi la speranza è qui
che se possiamo produrre un modello quello di
il nostro cervello che quindi possiamo meritare giusto
algoritmi per eseguire cose che il nostro
il cervello può fare abbastanza facilmente
classificazione classificazione cose come
così i pro e i contro sono di nuovo
molto versatile può essere usato per molti
compiti diversi
il miglioramento chiave è proprio questo
inizia a rimuovere il requisito di
funzionalità di ingegneria così con tutto il
altri algoritmi del tuo algoritmo
vivi o muori in base a ciò che ti caratterizza
dare l’ input necessario per lavorare davvero
difficile con altri algoritmi per dire
questa è la caratteristica più importante
Ho intenzione di mantenere quella e l’uso che, ma
quelli sono quelli sono completamente
ridondante li ho rimossi e
ciò richiede una quantità significativa di tempo
con un apprendimento profondo ha la capacità di
internamente durante la fase di addestramento di
o completamente rimuovendo i parametri o
mantenendo completamente i parametri puramente
sulla base di quanto bene si adatta ai dati come
bene il processo di formazione va così
rimuove il pregiudizio che proviene
rimuovendo dati o aggiungendo dati che sei
non sono sicuro che dovrebbe essere lì o no la
la truffa principale in realtà c’è un supposto
ci sono un paio di contro il più grande
è difficile da visualizzare al più presto
come si avvia entrare in
le dimensioni della rete neurale sono piuttosto profonde
può essere abbastanza difficile da visualizzare e
concettualizzare, spero che ci proverò
e provate quello sbagliato in un po ‘ma
Questo è il problema numero uno
e il problema numero due può essere abbastanza
computazionalmente costoso ma questo è
questo è vero per molti di questi
algoritmi davvero così come fanno
in realtà funzionano bene, tutto ciò che funziona
principalmente cercando di concettualizzare
le cose quindi c’è questa idea
le reti neurali agiscono come a
gerarchia di concetti e il
l’intero obiettivo è davvero quello di prendere quelli
le immagini prendono anche i tuoi dati e producono a
concetto qualcosa che esattamente
descrive cosa viene fornito all’ingresso
quindi abbiamo la coppia dei concetti
a sinistra abbiamo una strada e
animale e una persona, ma puoi vederlo
tu no
a quello in basso la persona e
l’animale lì sono in realtà collegati
da un altro concetto sai che sono entrambi
gli animali sono solo uno di loro è così umano
il bello del ritardo
il concetto è che puoi effettivamente iniziare
per taggare cose simili ma non simili
lo stesso si basa sul tuo allenamento
i dati così per essere più specifici questo dice è
un esempio di come andresti in giro
concettualizzare un’immagine così ogni pixel
all’interno dell’immagine che è le linee tratteggiate
là quello sarebbe passato nel
input del nostro apprendimento profondo e lo farebbe
iniziare a ridurre i concetti attorno a quelli
pixel in modo che il primo livello possa decidere
che c’è una parte di una gomma che conosci
o un mucchio di un orlo o un piatto di estremità o
qualcosa del genere di solito molto piccolo
tipo discreto di cose locali all’interno del
immagine a cui potrebbe iniziare il livello successivo
costruisci in quel concetto e costruisci a
concetto di uno pneumatico o di un’ala intera o a
vera ala e poi finalmente arriviamo alla
classificazione e in questo caso è una f1
auto ma puoi immaginarlo se tu allora
ha mostrato l’algoritmo di un auto normale,
potrebbe riutilizzare alcuni di questi concetti
tutto quello che hanno ancora le ruote sono ancora
conosci le cabine o i nostri corpi
via probabilmente non ho le ali , non lo faccio
sai forse a Leeds non lo faccio
sulla Danimarca
ma puoi riutilizzare alcuni di questi concetti
e quel tipo di mostra l’ applicabilità
non solo non solo problemi che è
già visto ma anche problemi futuri
che non ha visto e così solo per
finisci questa sezione davvero solo
apprendimento automatico nelle notizie o in profondità
imparando in loro nelle notizie l’uno
Mi piace davvero che sia accessibile a
chiunque è davvero il Google il nuovo
App Google Traduttore che scatta foto
di segni o testo in una lingua diversa
e traduce quel testo ma il reale
il fresco USP di tutta la faccenda è quello
in realtà prende l’immagine e la sostituisce
l’immagine con il testo corretto nel tuo
lingua così qui abbiamo un russo
firmare e lo ha sostituito con il
L’inglese qui in realtà dico che dice
accedi alla città ma secondo il mio
amico chi parla russo
in realtà significa uscire al villaggio, quindi no
accesso alla città uscita al villaggio, ma è
non altrettanto grandioso se mostrassimo se
Google ci ha mostrato la scienza e uscita
villaggio quindi è probabilmente il motivo per cui loro
cambiato e poi abbiamo il
immagini in basso e questa è una novità
chip sviluppato da IBM ne sono stati alcuni
anni in realtà in realtà ma
efficacemente è un apprendimento profondo
infrastruttura di tipo di rete neurale
all’interno di un chip, quindi ovviamente hai
la causa e tu hai usato la causa
immagina la causa parallelizzata in maniera massiccia
quindi invece di farti sapere una chiamata
ne abbiamo decine di migliaia in questo caso
in realtà un milione c’è un a
milioni di neuroni in questo chip così è
in grado di fare un milione di compiti paralleli tutti
allo stesso tempo e quando attraversiamo
alcuni degli esempi in un minuto
stiamo andando a parlare di come
le dimensioni dell’immagine sono 10 10 x 10 100
input pixel che vanno giù a forse 2 a
2 uscite su là 2 dimensioni sul
uscita in modo che non è niente in
confronto a ciò che questo potrebbe fare e
questo è in realtà in hardware e in modo
è super veloce super bassa potenza e
dovrebbe produrre qualcosa di veramente interessante
le applicazioni vanno bene, quindi è solo per solidificare
il mio lavoro di apprendimento sta andando
portarti attraverso un esempio che è un
descrizione
di alcuni numeri qui così il
l’idea di questo compito è riconoscerne alcuni
cifre manoscritte e classificarle
come un numero da 0 a 9 quindi è davvero
classico esempio di apprendimento automatico qui
ma è davvero fantastico da usare in
esempio come esempio perché è molto
facile da capire molto molto facile per
tutti capiscono che sta solo provando
riconoscere cosa sia quel numero e il
la prima cosa che notiamo quando iniziamo
guardando i dati quindi il primo passo in
qualsiasi lavoro di analisi dei dati deve avere
uno sguardo ai dati e la prima cosa
notiamo che se tu in realtà se tu
guarda quel numero in alto a sinistra lì
quindi non sono completamente sicuro se
questo è un 5 o un 3 e questo
immediatamente porta problemi perché questo
i dati sono in realtà etichettati in modo che ognuno di
questi esempi vedrai così ognuno di loro
numero è un esempio si può vedere che
è stato invertito da forse hai
qualcuno ha scritto la penna su carta bianca e
è stato invertito e poi ridotto a
una dimensione fissa di pixel e quindi inviato come
bene e la prima cosa che possiamo vedere
non siamo già sicuri se sia così
un 3 o un 5 e così qualcuno se n’è andato
attraverso ed etichettati questi dati come a
3 o 5 ma non sono convinto che
questo è effettivamente corretto, quindi stiamo dando
il nostro algoritmo dati potenzialmente rischiosi
già così ci sono in mente ogni volta
stai cercando di addestrare i dati che il tuo
i dati della tua etichetta potrebbero non essere corretti
il primo posto perché è di solito
di solito è etichettato da umani così
quello che facciamo con ogni esempio è noi
inseriscilo in un livello di input, quindi lo sono
cercando di stare lontano dal termine neurale
rete anche se l’ ho menzionata a
paio di volte perché che è stato
intorno dagli anni ’80 ma suona
complicato ma non è davvero tutto il
rete neurale hai un nodo dove
alcuni dati va e allora avete avere
collegamenti a un sottoinsieme di nodi e
quelli sono quei collegamenti tutti hanno pesi
che è così semplice che tutto ciò che facciamo è
alteriamo i pesi all’interno del
rete per eseguire un’attività così
Cercherò di trattenermi dall’usarlo
terminologia quindi il nostro livello di input è
di solito la stessa dimensione della dimensione del
dati quindi qui abbiamo fatto forse il 10 di
10 pixel quindi abbiamo 100 input
abbiamo un input per ogni pixel che poi
passare i dati attraverso ciò che è noto
come uno strato nascosto e lo chiamiamo nascosto
strato un po ‘fondamentalmente perché non lo è
un input o un output è qualcosa in
al centro non è direttamente osservabile
e il modo in cui sono connessi
è con un peso e durante l’allenamento
elaborare quei pesi potrebbe essere lo sai
completamente rimosso impostandolo su zero
o sai perfettamente tenuto seduto
è tutto uno e questo è tutto l’allenamento
processo sta facendo così ciò che è veramente grande
a questo punto è che quei pesi
in realtà essi si combinano nel livello successivo
quindi potresti aver imparato che il
pesi che sono stati appreso per questo
un particolare neurone nel nascosto
il livello può effettivamente essere trattato come a
caratteristica questo è questo è l’inizio
di un concetto quindi sta dicendo questo
quel neurone che un elemento nel
strato nascosto lì che ce l’ ha
determinati pesi su ciascuno degli input
pixel quindi se se se dovessimo fare
che lo strato di output lì potremmo
immagina che se quello fosse l’ output
strato per il numero uno i pesi
rappresenterebbe una forma che sembra
qualcosa come il numero uno in generale
in livelli nascosti ne hai multipli
strati nascosti quindi stai cercando di ottenere
l’algoritmo per imparare questi piccoli passi
questi piccoli incrementi di concetto e
quello che possiamo realmente fare è dire questo
perché per quello strato nascosto possiamo andare
indietro e dire cosa fa il livello di input
devono apparire come al fine di pienamente
attivare quel neurone e solo quello
un neurone quindi questo è un esempio di questo
strato di funzionalità nascosto qui e potrebbe
sembra un po ‘astratto ma tu puoi solo
su come iniziare a capire che è
iniziando a imparare questo tipo di fantasmi
immagini di numeri in là e questo è
perché sta iniziando a imparare alcuni di
questi concetti se dovessi usare a
numero di livelli nascosti e dire di sapere
non provare e impara il numero tutto
in un colpo solo potrebbe venire con caratteristiche
che sono come spigoli forse potrebbero imparare
il bordo del bastone di a7 o forse tu
può iniziare a imparare alcune curve di un nove
o qualcosa del genere e questi sono la
caratteristiche nascoste che sono nel mezzo
di tutte queste reti
quindi alla fine avremmo prodotto un
livello di output che di solito equivale a
il numero di possibili classificazioni
che vogliamo farlo per la nostra produzione
strato avremmo 10 avremmo 0
a 9 e ciascuno di quei nodi lo farebbe
rappresentano un numero e all’uscita
strato se dovessimo mettere in realtà uno dei
questi esempi in te non otterrebbero mai il 100%
si ottiene sempre ciò di cui stiamo parlando della
prima di come sono non sono
deterministico ma tu lo sei
deterministico nel senso che loro
avere un peso fisso in modo da poter seguire il
percorso di quei pesi attraverso i dati
tuttavia non siamo mai abbastanza sicuri come
tornando a quell’esempio precedente
non siamo mai abbastanza sicuri che si tratti di un 5
o un 3 quindi andiamo all’algoritmo
probabilmente deciderò che sono al 50%
certo che è un 5 ma c’è un 40%
possibilità ci potrebbe essere un 3 così tutto il
numeri che sono generati fondamentalmente il
la classificazione è fatta dal picking
il più alto di quei numeri così in questo
caso direbbe che il 5 è il
classificazione per questo esempio perché
che aggiunge il valore più alto all’uscita
ma quello che è veramente bello è quello
possiamo in realtà piuttosto che cercare di dire
per classificare gli oggetti solo
avendo 10 uscite possiamo effettivamente
produrre lo stesso numero di uscite e
input e dire chiedere l’algoritmo per favore
provare e ricostruire l’ immagine sulla base di
i tuoi concetti nascosti e conosciuti
rappresentazioni quindi cosa possiamo fare qui
è dato un certo output si prega di ridurre
riproduciamo quell’input e poi potremmo
fai qualche confronto per vedere quanto è bello
eseguito quindi questo è un esempio di cosa
una ricostruzione sembra effettivamente e
se faccio solo un colpetto all’indietro o in avanti
tra ciò che era reale ciò che era reale
input e quali erano i concetti appresi
su questo puoi vedere che il
i concetti appresi sono un po ‘come a
ubriaco versione sfocata del numero reale
e questo perché sono una specie di
imparando hanno fatto quello che più probabilmente
l’aspetto è per quel particolare numero e
e ciò che è veramente interessante è nella
dati reali con ciò che non mostreremo
se è 3 o 5 ma se guardi
il verso ubriaco
in realtà sembra un po ‘più di
un cinque e questo sta dicendo che il
l’algoritmo è stato deciso um bene ma lo è
probabilmente è stato etichettato come un cinque così
quindi l’algoritmo ha imparato quello di
quelle caratteristiche come un cinque così quando ci provi
e ricostruirlo sembra più un
cinque e poi finalmente abbiamo parlato
riduzione della dimensionalità, quindi cosa possiamo
fare è prendere quella uscita ad alta dimensione
quindi in questo caso ne abbiamo dieci discreti
classi da zero a nove e possiamo
appiattirli nello spazio in modo che non abbiamo
dieci dimensioni per tracciare tutti i nostri dati così
non possiamo non possiamo tracciare il 50% del
dal cinque al trenta percento del per
venti percento dei tre e così via
e così via tutto su un grafico perché noi
non ho così tante dimensioni, quindi cosa?
possiamo fare è appiattire tutto ciò in
due dimensioni e questo è ciò
processo è qui e ciò che mostra è
quanto bene i dati sono in cluster
insieme in modo che possiamo vedere se ho stand
molto vicino al mio schermo posso vederlo
il numero sette in fondo sono
abbastanza bene raggruppato lì il numero di
Otto sono ok in alto a sinistra, ma poi
ne abbiamo anche alcuni molto strani
caratteristiche come così prendiamo il cinque e
tre esempio, si vedono i cinque del
arancione in mezzo sono abbastanza bene
mescolato con i tre e questo è un po ‘
perché ci deve essere un bel po ‘di
esempi che sembrano cinque o sembrano
come un tre, quindi sono abbastanza ben miscelati
in modo che significa effettivamente eseguire il
classificazione dell’algoritmo
devo lavorare davvero duramente per provare te
sappia separare quelli così questo è ciò che
lo faresti generalmente sull’output
vorresti provare a visualizzare
i dati in modo tale che noi come esseri umani
non riesco a capire che potrebbe essere
in 2d o in 3d okay quindi spero che
quella sezione ti ha fatto conoscere
due deep learning e alcune delle idee
e una parte della terminologia, così quando io
vieni ad alcune delle demo finanziarie
lì dovrebbe essere molto più facile
capisci così il primo esempio è a
esempio tradizionale che utilizza regole
approccio e in questo caso siamo stati a
un po ‘di fantasia che usiamo nel grafico
database tipicamente grafico su di esso
i database non vengono utilizzati tanto quanto noi
come se si esibissero davvero bene
un
in uno scenario basato sulle frodi così giusto
ricapitolare rapidamente se non si conosce un grafico
il database è un altro nuovo database SQL
ma il suo potere è davvero la descrizione
dei dati in modo che i dati possano essere sempre e solo
o un nodo o una relazione un nodo
è come una cosa o un nome mentre a
la relazione è un link o a
relazione o a o un verbo che
fondamentalmente collega due concetti insieme
e il punto chiave di vendita è proprio questo
a volte hai dati che sono giusti
meglio descritto in un grafico come
struttura così per esempio quando siamo
parlando di frodi e finanza e
cose
hai i concetti di persone e
account e quelle persone e account
sono tutti collegati a cose diverse
sono collegati a un indirizzo un collegamento a un
conto corrente e così via per esempio
abbiamo il tradizionale il
caso di utilizzo dei social media tradizionali dove
abbiamo un mucchio di questi amici di Bobby
con Jane abbiamo una sedia contenuta
all’interno di una stanza, Jane ha comprato un libro e così
ma il vero potere è quello una volta
l’hai modellato in questo modo
eseguire query complesse che tu
non sarebbe in grado di fare in un tradizionale
database relazionale quindi quando lo volevi
per farlo per tornare sui social media
esempio di nuovo quando volevi fare come
chi è amico del mio amico che hai
fare un pazzo unito con il tuo SQL in
per farlo funzionare con un grafico
database che puoi semplicemente inserire puoi semplicemente
hop attraverso il grafico lo rende davvero
davvero veloce così nella loro situazione di frode
potremmo modellare i nostri dati a qualcosa
in questo modo potremmo avere un account
titolare nel mezzo e loro hanno
relazioni con numeri di telefono o
l’assicurazione nazionale conta cose come
questo e poi possiamo eseguire interrogazioni su
che se ci piacerebbe, ma quando si
inizia a vederlo in dettaglio e
effettivamente guardando come queste connessioni
stanno collegando le cose insieme
cominciano a venire fuori modelli interessanti
e soprattutto se lo stai visualizzando
in questo modo è molto più facile
visualizzare i dati in questo modo rispetto a
una tabella per esempio così in questo esempio
abbiamo tre titolari di conto in rosso
avendo il rosso sono rossi e
sono collegati in vari modi
li condividiamo tutti e tre
lo stesso indirizzo quindi chi potrebbe essere schivo io
in realtà aveva una persona in un altro discorso
Scusami
che III stava suggerendo che tutti e tre
persone che condividono lo stesso indirizzo
potrebbe essere losco e lei era come no
no no no quando migliaia di persone sono
condividendo lo stesso indirizzo, allora è poco raccomandabile
tre è bene non ti preoccupare così
Sono ok, quindi potremmo creare un
regna lì per dire che sai quanti
le persone stanno usando lo stesso indirizzo e
potresti farlo nel tradizionale
database ma dove il potere davvero
entra quando inizi a collegarli
queste cose insieme e alla ricerca di
questi anelli più grandi e gruppi all’interno del
dati quindi se immaginiamo che direttamente due
le persone non condividono lo stesso cittadino
numero di assicurazione per esempio che è
illegale nel Regno Unito forse c’è un terzo
partito che collega questi nazionali
Numeri di assicurazione insieme così tu
in realtà inizia a formare questi anelli
all’interno dei dati che sono di tipo no
questo non dovrebbe essere naturale
suona nei database di dati e grafici
sono veramente bravi a vedere e avvistare
questi anelli così è il tipo di
tecnologia che esisterebbe in natura
oggi se ci venisse chiesto di eseguire un
lavoro come questo ma dove siamo veramente
interessato sta portando una macchina
tecniche di apprendimento ad alcuni di questi
idee così la prima idea che ho avuto è stata abbastanza
uno tipico davvero ed è per questo
è per questo che l’ ho fatto perché era abbastanza
facile da fare ma fondamentalmente se potessimo usarlo
impronte vocali per originarlo
risolverei solo il principale
ragioni davvero sarebbe salvare l’utente a
tempo significativo per l’utente
l’esperienza vorrebbe sapere essere enorme
migliorato enormemente senza dover aspettare
il telefono per 20 minuti solo perché
qualche stupido sistema automatico ti ha portato
il posto sbagliato, quindi se possiamo usare il loro
la voce della persona come una forma di
origination di autenticazione quindi saremo
in grado di risparmiare tempo essere in grado di salvare
macchine ed essere in grado di salvare il loro il
potere delle persone dall’altra parte del
telefono così per fare ciò che dovremmo fare
è quello di registrare la voce dei clienti
quindi pre-elaboriamo i dati in qualche modo
per pulirlo e metterlo in un formato
questo è ciò che è in grado di essere messo in
un algoritmo in questo caso scambieremmo
un modello di apprendimento profondo ma potrebbe essere
qualsiasi algoritmo e poi lo memorizziamo
impronta digitale per la verifica futura in
lo scenario online così una volta che hai
impostare l’utente verrebbe su di voi
ripetere la sua voce forse contro
la frase preimpostata forse contro nuova
frase e poi lo si confronta
risultato dell’impronta digitale e così sarebbe
provare se quella persona lo sai
davvero chi dicono di essere così è
la fase di pre-elaborazione in azione così
questo è un po ‘di elaborazione del segnale che
sta convertendo la firma del tempo di
il file audio in frequenza in
il dominio della frequenza, quindi cosa sei
vedendo c’è una trama della frequenza
componenti contro tempo quindi il rosso è forte
e quel colore verde blu è debole
quindi sta dicendo che sai che puoi vedere
ci sono lacune tra i dati
sono una specie di punto in cui si è fermato
dì le parole e penso che se lo fossimo
funziona sì , questo è un dato di esempio
che ho usato nel mio apprendimento e questo è
tre esempi di tre persone che dicono
la stessa frase non chiedermi cosa
frase in realtà significa che non so cosa
tutt’altro che puoi dirlo
te stesso che quelle tre voci suonavano
a volte un po ‘diverso ma dentro
quest’ultimo esempio completamente diverso
e quello che stiamo cercando di fare è di per
fare in modo che l’apprendimento approfondito pensi allo stesso modo
okay, una volta che l’abbiamo messo nelle nostre profondità
modello di apprendimento abbiamo fatto la formazione
e abbiamo prodotto un output nostro output
in questo caso è tra questi tre
persone diverse quindi potresti averne tre
uscite e poi di nuovo abbiamo compresso
che abbiamo schiacciato quello sotto il
schermo in due dimensioni e questo è un
trama che mostra quanto vicino tutti coloro
le voci erano tra così abbiamo ottenuto un
un paio di punti diversi in là e
i diversi colori lì – Bob
Steve e Dave corrispondono alla
tre diversi esempi i tre
persone diverse che danno l’esempio
scusa e ogni singolo punto è a
frase specifica che hanno detto così abbiamo avuto
dieci dieci frasi diverse che hanno detto
e puoi vedere tutto questo
gli esempi sono abbastanza raggruppati
bene quindi se ne prendiamo un altro lo sono
le stesse persone ma usando un diverso
esempio parlato quindi non gli stessi esempi
come funzionerebbe?
nuovi dati quindi penso che andremo di nuovo così il
linea superiore ora nei risultati che era il
il risultato grezzo l’output grezzo di quelli
tre neuroni attraverso per quel file e
sta dicendo che uno dei tuoi nuovi
gli onori sono 0,98
il 10.1 un altro 100.1 pure e
questo sta dicendo che conosci Bob
sicuramente abbastanza sicuro del 19 percento
quello era decisamente Bob
ci si va il 97 per cento di probabilità che era
Steve là il 96 percento era Dave così
quello era un esempio abbastanza semplice
esempio nel senso che ha usato solo un
set di dati molto piccolo , ma lo sai
è istruttivo ed è una specie di punti
verso cose che potremmo fare nel
futuro mi ha dato molti più dati che intendo
ogni telefonata che prendiamo in questi giorni
c’è sempre un disco che stiamo registrando
voce per scopi di formazione di verifica
quindi ci devono essere enormi vasti database di
le voci della gente là fuori ok, quindi il prossimo è
ampi alberi decisionali quindi questo è un
esempio di albero decisionale che abbiamo mostrato
prima e questo è previsto
mutuo di default così incredibilmente due banche
– – scusate due fornitori di mutui nel
noi siamo usciti come al solito, naturalmente e
siamo stati salvati dal contribuente americano, quindi noi
di proprietà del governo americano, quindi Freddie
ma Freddie Mac e Fannie Mae e come
parte del loro non so come parte di
la loro rappresaglia fondamentalmente uno schiaffo sul
al polso il governo li ha costretti a farlo
rilascia molti dei loro dati al pubblico
e sorprendentemente hanno pubblicizzato a
tutta la serie di dati delle domande di mutuo
e anche resoconti storici di cosa
successo a quelle richieste di mutuo
quindi puoi dire che ci hanno detto
se quella persona è stata automaticamente inadempiente
il futuro quindi il compito qui è dato
qualche dato qualche oh cara sto correndo sopra
tempo libero per accelerare dato che alcuni dati sono
è possibile prevedere se questo
la persona sta per default così il primo
il primo problema è l’intero dato
problema di pulizia come abbiamo visto
il discorso precedente è la stragrande maggioranza
di tempo per spendere i dati di pulizia
Lo salterò, quindi se lo fossimo
per appiattire tutti i dati che erano
recuperato in un’immagine prima di metterlo
attraverso l’ algoritmo questo è un po ‘
quello che sembra è molto
mescolato e mescolato non può abbastanza
capire cosa sta succedendo in modo tale da prendere una decisione
l’albero sta imparando tutte queste regole
e in base ai risultati di quelle
le regole sono piuttosto sì, la persona è inadempiente
no, non erano predefiniti così abbiamo fatto
circa 20.000 campioni totalizzano 50-50
dividere un classificatore di foresta casuale così è
un tipo di algoritmo ad albero decisionale, ma lo è
meglio non si adatta troppo solo 11
caratteristiche di input quindi il problema principale qui
è che in realtà non penso che abbiamo
abbastanza dati per fare un ottimo lavoro ma
vedremo cosa possiamo fare e l’unico
la cosa grandiosa degli alberi decisionali è quella
in realtà ti dà una misura di
importanza per tutte quelle variabili così
qui abbiamo le variabili che erano
immesso nell’algoritmo in basso
e mostra la loro rispettiva importanza
di quelle variabili lì sul
lato sinistro in modo da poter vedere in realtà
il punteggio di credito è al secondo posto quindi
Non sono sicuro che il riferimento di credito
le agenzie sarebbero troppo felici che tu
sanno che potevano solo spiegare 0,25 del
i dati potrebbero essere solo il 25% dei dati
spiegato dal solo punteggio di credito così
non un grande risultato per loro e
in realtà la misura più importante era
l’origine HPI che era la casa
origine dell’indice dei prezzi per quel locale
area quindi questo sta dicendo che una persona che
ha preso un mutuo in una zona molto locale
dipende molto dai prezzi all’interno
quella zona se stanno andando a
predefinito o meno e questo è un po ‘a
tipico negli Stati Uniti si può vedere
come vaste tratte di luoghi simili come
Detroit che conosci non appena alcuni di
i lavori lasciati a tutti hanno perso la loro
posti di lavoro in tutta l’area dei prezzi della casa quindi
si è schiantato e quindi le persone non potevano permettersi
di vendere perché non potevano vendere in modo
questo è un po ‘il motivo per cui è così importante
risultato interessante e poi finale
esempio mi devo spostare piuttosto
rapidamente qui perché ne ho solo due
minuti rimasti ma è possibile prendere
quei dati
e prova a vedere se c’è
qualcosa di strano in corso senza dentro
i dati quindi in pratica questo è un
esempio senza etichetta non lo stiamo dicendo
cosa imparare qui così come lo facciamo
bene c’è una tecnica di apprendimento profondo
chiamato un autoencoder che fondamentalmente
prende gli input e limita il
numero di neuroni nascosti a pochi
concetti che sta dicendo che hai davvero ottenuto un
scegli e scegli quali dati usi e
generare alcuni concetti che sono veramente
abbastanza severo e quindi proviamo e
riproduciamo di nuovo l’output e lo siamo
confrontando l’output con l’input
come misura di quanto bene avremo fatto
quindi fondamentalmente quelle restrizioni nel
medio forse solo due neuroni sai
sì e no qualcosa di simile è quello
possibile ricostruire i dati così noi
può farlo quindi ci sono gli stessi dati di
prima leggermente è un caso diverso
esempio in modo che potrebbe sembrare leggermente
diversi abbiamo un livello di input a
numero di livelli nascosti che sono
comprimendo i dati in più piccoli
e neuroni più piccoli e poi siamo
ricostruire di nuovo l’input
strato e facendo un confronto per vedere come
beh, l’abbiamo fatto, ma quello che possiamo fare è allora
trama in due o tre D uno di quelli
livelli nascosti per vederli effettivamente
concetti e ciò che abbiamo imparato e
finalmente questo è il risultato di ciò
processo e il lato sinistro che abbiamo
una rappresentazione 2D e puoi iniziare a
vedi c’è in realtà qualche struttura
all’interno di quei dati così in genere tu
può vedere che le persone che sono inadempienti
ogni stratagemma su quel grafico o sull’on
il lato sinistro e il popolo che
non predefinito sul lato destro
e dentro se guardi il
lato destro c’è un paio di
punti arancioni e questo sta dicendo che il
la grande maggioranza delle persone in là non ha fatto
default ma una o due persone hanno fatto ora un
l’analista potrebbe iniziare a chiedere perché così
potrebbe essere qualcosa di abbastanza innocente
sai forse la persona ha perso la sua
lavoro ad alto potenziale è andato in prigione
una cosa del genere, ma è una specie di
indicativo che qualcos’altro sta andando
e questo è dove l’analista farebbe
entra e inizia a investigare
i dati quindi sono completamente senza etichetta
e l’algoritmo non ha assolutamente idea
cosa significa
e ci vuole ancora umano per fare un po ‘
analisi e fare qualche ricerca per
capire cosa è successo, ma questi
tipi di strumenti guidano gli analisti nel
giusta direzione opposta a giusta
prendendo un Sam casuale
e infine sul lato destro
abbiamo una rappresentazione 3D del
stessi dati e questo è dove diventa
davvero molto potente che puoi immaginare
come se potessi ottenere quel grafico e te
può piacere guardarlo dentro e spostarlo
e giralo e puoi iniziare
vedi i cluster nello spazio 3d e in quel momento
inizia a diventare immersivo e dato
abbastanza tempo ci vuole ci vuole un certo
quantità di tempo per ogni analista
analizzare i dati ma dato abbastanza tempo
sarà in grado di imparare a vedere i modelli
all’interno di quei dati che li aiuteranno a
investigare cose che non hanno
visto prima e penso che farò meglio a fermarmi
lì perché sono completamente a corto di
tempo quindi grazie mille per
ascoltando
tu

Please follow and like us: