GOTO 2016 • Discovering Research Ideas Using Semantic Vectors & Machine Learning • Mads Rydahl - Video Explode

ciao e grazie per esserti unito a noi
Faccio parte di una piccola start-up che si trova
qui in Danimarca conosce il silo
lavoriamo con grandi editori scientifici
elaborare informazioni sugli articoli e su
creare strumenti per i ricercatori e così forse
Dovrei iniziare con spiegare la
missione che abbiamo istituito quattro anni fa noi
ha fondato la società, quindi la nostra idea era di farlo
costruire un sistema di servizi di scoperta
ciò potrebbe rendere più facile la ricerca di schemi
attraverso un sacco di testo non strutturato oggi
o un paio di anni fa il modo in cui le cose
erano collegati quando guardavi un
articolo e prova a trovare qualcosa
simile stava usando umani annotati
parole chiave degli editori è così che trovi
articoli correlati nella scienza e nel grande
sfide che abbiamo visto con il sistema
com’era era quello perché scientifico
il linguaggio è in continua evoluzione e
in crescita e le cose nuove si stanno
ho scoperto che è impossibile tenere il passo
con una sorta di cura della mano di contentarlo
anche un sistema deve anche essere onnisciente
perché attualmente è come un autore e
un editore che guarda un foglio e
cerca di decidere qual è l’ importante
aspetti di questo articolo e, a volte
scoperte davvero interessanti
davvero solo apparente col senno di poi così tu
ho bisogno di un sistema automatizzato che possa
correlare un nuovo articolo due tonnellate di
altre cose che stanno attualmente accadendo
capire se roba gente in Cina
fare qualcosa esattamente simile a cosa
stai cercando di farlo e finalmente lo ha fatto
essere imparziali perché in questo momento abbiamo
questo problema la maggior parte del genere di
i consiglieri e la concept curation
questo è automatizzato oggi è basato su così
il filtro collaborativo o come il
cose che vedi su persone di Amazon che
comprato questo comprò anche che tende a
guidaci lungo lo stesso percorso e tende
per fare in modo che i ricercatori provino a fare
qualcosa che cammini dritto di più
roba interessante perché è quello che
anche tutti gli altri lo fanno, abbiamo bisogno di un
approccio imparziale che non si basa su
una sorta di popolarità come classifica
page rank o filtro collaborativo
il suono è un po ‘ strano, va bene, no
avere quel clicker di fantasia così il core
la tecnologia su cui abbiamo costruito è basata
un sacco di componenti open source o a
almeno tre componenti abbiamo a
pipeline di elaborazione dei documenti costruita
intorno a batchi si eema e bruta e
abbiamo eseguito una sorta di standard naturale
pipeline e strumenti di elaborazione del linguaggio
in cima a quello e poi usiamo comune
lingue come Python per la prototipazione
Java e un sacco di librerie e roba in
credo che la cassetta degli attrezzi dei dati scientifici
la sfida chiave è ciò che stiamo provando
fare è quella conoscenza non strutturata
il testo fondamentalmente non calcola come io
Detto prima c’è troppa roba in corso
per gli umani essere coinvolti in questo
processo e anche quando gli esseri umani sono
coinvolto in un livello superiore nell’edilizia
l’ontologia è rappresentare la conoscenza
che abbiamo di una certa disciplina
non sta andando abbastanza veloce tutto il
roba interessante che è stata scoperta
ieri o il mese scorso o anche sei
mesi fa non è diventato aa
ontologia curata eppure così se tu davvero
vuole essere in prima linea in cui il
il denaro è e e e dove le cose contano
nella ricerca hai davvero bisogno di più
approccio dinamico quindi anche quando ci sono
dizionari o opere di consultazione E ‘
non è semplicemente non comprensibile
abbastanza e poi il secondo grosso problema
quello che abbiamo è che anche le persone lo sono
creativo che non usano
un solo nome per un certo fenomeno
hanno molte varianti differenti e
spesso aggiungono dettagli descrittivi in
la propria lingua che rende assolutamente
non ha senso per un computer e lo fa
davvero difficile capire cosa
in realtà stanno parlando di quello che c’è
nessun modo giusto per descrivere qualcosa nel
mondo e, in qualche modo, dobbiamo capire
fuori di cosa sta parlando la gente così come
Ho detto che finalmente c’è tutto questo
dati che le persone considerano ovvi
questo è probabilmente il più grande problema per
per analytics oggi o per computer AI
in generale tutte le cose che le persone
considera ovvio e poi fallire
includere in una descrizione di tutto ciò
quelli sono i problemi chiave che erano
che stiamo cercando di risolvere ecco a
pezzo di testo è un articolo del 2006
e se usi un tipo normale di
ricerca full-text o qualche tipo di
motore di ricerca standard e tu butti
questo è un estratto di un articolo il
il vero articolo è probabilmente dieci volte più
a lungo quindi è davvero difficile da vedere
di cosa tratta questo testo e se io
leggi questo come faccio a capire quale altro
gli articoli parlano delle stesse cose così
oggi usiamo i computer per annotare il
parole che sappiamo cosa significa così queste
sono le parole che si trovano in comune
sorta di dizionari e ontologie di
questo di questo settore e abbiamo al nostro
la compagnia ha sviluppato molto di più
modo completo di guardare questo e
deriva statisticamente in modo dinamico
frasi più lunghe che significano roba e noi
capire che significa circa
quale di loro significa approssimativamente il
stessa cosa e proprio ora come ho detto in
penso alle osservazioni per il discorso
Cercherò anche di parlare un po ‘
un po ‘dove vogliamo prendere le cose
e su cosa stiamo lavorando attualmente e
non è solo come puoi vedere che siamo
cercando di coprire tutte le informazioni
è in realtà in un articolo prova a mappare
fallo fuori e rendilo ricercabile fallo
trovabili
e stiamo attualmente lavorando su tutti
le azioni e le relazioni tra
queste cose in modo che quando trovi roba
quello parla di a e B di più
l’articolo pertinente è probabilmente quello
che parla di a e B e
circa lo stesso contesto o il
stessa frase o addirittura parla di come a
è collegato a B oggi puoi anche farlo
questo con una sorta di numero di distanza di
parole intermedie quando usi a
motore di ricerca tradizionale ma la cosa
è quando lavori con controlli allora
a volte il numero di parole intermedie
attraversare un limite di paragrafo o qualche volta
è il testo dell’immagine che è proprio accanto a
quella cosa davvero interessante che
stavi cercando così ed altro
volte in realtà la cosa che sei
interessato è menzionato qui con
quella terza cosa e quaggiù l’altra
la cosa è menzionata con quella terza cosa
quindi sono davvero molto vicini
collegati ma sono solo quelle strane estremità
dell’articolo quindi hai bisogno di un meglio
comprensione di questo e noi in realtà
usa l’analisi del grafico per capire il
prossimità delle cose e centralità
di cose in un articolo così il primo
il nostro passo è normale
l’elaborazione del linguaggio che alcuni di voi potrebbero essere
familiare con questo, ma la parte più semplice
di un linguaggio naturale che elabora il
cosa che fai senza troppo
il calcolo è il potere della parola
tagging in pratica assegnando classi di parole
a ogni parola è questo un verbo o è un a
il sostantivo in questo contesto è quello
aggettivo e una volta che abbiamo la parte
di taggatura vocale in realtà possiamo trovare a
molti candidati per cose potenziali
nella frase così come puoi vedere qui
abbiamo una frase dal tuo astratto
Ho appena visto i metodi per misurare il sodio
concentrazione nel siero per via indiretta
elettrodo selettivo a selezione di sodio
potenziometria quindi l’ho evidenziato
sotto per quelli che non leggono
articoli sulla base quotidiana ci sono
quattro cose qui in un’azione se tu
entrerà e parlerà e se estraiamo
tutte le cose qui sembrano carine
semplice, quindi, qual è il
Manzo
quindi risulta che puoi dire queste cose dentro
molti modi diversi e se vuoi
vedere altri contenuti che sono da vicino
relativo a questo articolo è necessario ancorare
non solo guardare quelli che includono
quelle parole esatte che devi anche guardare
a quelli che menzionano questi stessi
cose in modi diversi , quindi dobbiamo
deduplicare fondamentalmente, quindi lavoriamo con
Natura Springer che è uno dei
più grandi editori scientifici nel
mondo ci hanno dato tutti loro
contenuto e abbiamo setacciato attraverso di essa noi
trovato dall’altra parte di cento
milioni di cose nel loro contenuto e noi
poi dopo averlo elaborato in vari
modi deduplicare questo fino a forse due
o tre milioni di cose diverse e
anche quando sei giù a due o tre
due o tre milioni di cose diverse
hai ancora separazione tra le cose
quello che potrebbe essere un lettore umano dovrebbe trovare
essere per lo più la stessa cosa quindi c’è un
molta deduplicazione che devi fare se
puoi guardare gli esempi qui così
la concentrazione di sodio può essere mappata
puoi tornare alla concentrazione di sodio
hanno anche frasi come la
elettro potenziometria era indirettamente bene
ovviamente è lo stesso di quello indiretto
la geometria presente dell’elettrodo puoi parlare
ad alcune persone piace chiamare le cose a
metodologia piuttosto che un metodo e
a volte la gente parla di zero e
più plurale che siero, quindi questi sono
ciò che chiamiamo morfologico o
variazioni sintattiche fondamentalmente il
cose che dipendono dalla grammatica noi
anche cercare di ridurre il lessicale e
variazioni semantiche che sono quando gli autori
utilizzare sinonimi o nomi di ipo che sono
come termini generici più generici per il
stessa cosa così per quattro parti del nostro
pipeline in realtà facciamo anche questo tipo
di astrazione quindi ogni volta che qualcuno dice
metodo che potremmo mappare a un altro
termine generico chiamato siero meccanismo
assaggiare è in realtà un tipo di sangue
campione come il siero è il sangue con
qualcosa filtrato che non è il mio
primario
concentrazione di sodio negli affari e nel siero
beh, in realtà il sodio è il credo
Termine americano per natura o è anche
usalo a volte e indirettamente
geometria della funzione dell’elettrodo che abbiamo
ora ci vediamo in un paio di volte è
in realtà un tipo di elettroanalisi così
quando guardiamo frasi più lunghe o
frasi più lunghe in realtà entriamo e
sostituire ciascuno dei token con un altro
termine generico per capire se questo è
in realtà una variazione di qualcosa che
abbiamo visto prima che tutto questo sia davvero
niente a che fare con l’apprendimento automatico di questo
è solo una comprensione hard coded di
variazioni linguistiche così abbiamo
parafrasi composte ed ejectable
modificatori e coordinamenti dove tu
menzionare cose come la concentrazione di
sodio e magnesio possono essere espansi
in concentrazione di magnesio e
concentrazione di sodio e tutti questi
noiose regole che in realtà abbiamo bisogno di
esegui prima di poter fare qualsiasi tipo di
sorta di comprensione aggregata e
poi finale per un paio di cose lì
spesso guardiamo frammenti di
qualcos’altro o stiamo guardando
qualcosa che contiene un frammento che
è più interessante quindi a volte lo è
la potenziometria indiretta e nessuno
altrimenti nel mondo ha mai messo sodio
selettivo tra lì quindi dobbiamo
identificalo e prendi una sorta di autore
variazioni specifiche fuori questione
perché non significano assolutamente nulla per
chiunque altro nel mondo e qui noi
vieni anche a questa questione di aggiungere
ulteriori dettagli descrittivi che possono
davvero essere nel modo di comprendere
cosa sta succedendo così clinicamente
implementato qualcosa indiretto o
selettivo per gli ioni indiretti soggetto a errore
qualunque cosa siano queste tutte le cose
che ostacolano la comprensione
di cosa si parla davvero allora
una volta che abbiamo deduplicato tutto questo
tonnellate di cose davvero guardiamo
diversi tipi di funzionalità
quindi le funzionalità locali nel documento
includi quante volte è menzionato
a cosa è collegato realmente?
calcolare una posizione in un grafico del documento
colleghiamo tutte le cose nella menzione
nel documento con le relazioni
che li connette e poi fanno regolarmente
una sorta di analisi del grafico per capire
cos’è centrale e che tipo di a
periferiche a ciò che è stato parlato
così puoi avere qualcosa che è solo
menzionato una volta ma davvero centrale
perché è collegato a quello stesso
cosa centrale e puoi avere roba fuori
qui che può essere menzionato un paio di
volte ma sempre in relazione a cose
questo è non centrale e quindi di
Certo che corriamo questi altri tipi di
analisi che usano il contesto testuale
quindi le parole prima e a destra
dopo un pezzo di testo globale
le caratteristiche che usiamo sono anche una specie di
la ricorrenza conta il numero di documenti
che contengono la frase data e corriamo
vari tipi di algoritmi elaborati per
capire qual è il più comune
variazione se hai un set di un engram
se pronuncerai una frase le parole cosa è
il più comune ha usato una variazione se tu
aggiungi un aggettivo aggiuntivo di fronte
qual è l’aggettivo più comunemente usato
o quali sono le due cose più comuni
e sono sufficientemente diversi
diverso per essere due cose diverse
quindi ovviamente calcoliamo anche io credo
molti di voi probabilmente hanno familiarità con
il tf-idf che è fondamentalmente una deviazione
in frequenza da da una norma quindi se
le cose accadono più spesso di quanto non facciano
la media è una cosa significativa
frase probabilmente e poi guardiamo
distribuzione attraverso il corpus così cose
una cosa può essere citata pochissime volte
ma ogni volta che qualcuno usa quella cosa
lo menzionano più e più volte in
lo stesso documento quindi significa che lo è
probabilmente ha un significato ma se
lo guardi globalmente e conta
il numero di documenti in esso contenuti
può sembrare insignificante, quindi abbiamo questo
punteggio di concentrazione che paga
malaticcio ci dice quando succede
nel documento quanto è probabile che si verifichi
per verificarsi più di una volta e poi anche noi
fai un’analisi comparando il
distribuzione alle regioni di dominio da rappresentare
fuori che questo è qualcosa che è molto
comune ma solo in un certo dominio e
tutte queste cose sono coinvolte in
i nostri algoritmi di apprendimento o classifica
modelli utilizziamo anche l’aggregato
contesto testuale e questo è l’Io sono
tornerò su questo in un po ‘
mentre questa è la parola a Vic o parola
modelli di incastri che il precedente
altoparlante anche accennato quindi se guardiamo
tutte le occorrenze della frase data
attraverso l’intero corpus che ci dice
qualcosa su cosa significa o cosa
altre cose potrebbero significare la stessa cosa
e poi ovviamente la cosa più grande
quando stai cercando di addestrare un modello lo è
la cosa su cui ti stai allenando
abbiamo due tipi di cose che possiamo
allenarsi su abbiamo dati di addestramento umano
questo potrebbe essere gli stessi articoli noi
capire se abbiamo e io parthis
scopi che un dato concetto è molto
centrale per un articolo possiamo confrontarlo
e vedere se abbiamo effettivamente trovato nel
astratto quindi se è in astratto o
nel titolo come un’alta probabilità che
anche l’autore lo considera importante
quindi questo è un punto dati e poi
aggregato su migliaia o milioni di
articoli che in realtà possono dirci come
bene siamo a selezionare le cose
gli autori trovano importante ovviamente se noi
penso che possiamo fare meglio degli autori
questo è un modo pessimo per misurarlo così noi
usa anche altri tipi di addestramento umano
dati comportamentali dati dalle aziende
lavoriamo con loro ci permettono gentilmente di accedere
ai modelli di utilizzo quando presentiamo
qualcosa agli utenti quale di queste cose
che estraiamo hanno effettivamente cliccato
su trova interessante e e quale
articoli presentati con un elenco di
articoli relativi articoli
la barra laterale per esempio quale di questi
sono stati trovati per essere più interessanti o
cliccato su da dagli utenti risulta di
Certo è quelli con il promettente
titoli su cui non si fa clic
necessariamente quelli che sono più
simile quindi a volte è necessario fare
aggiustamenti solo per creare qualche link
esca così l’altro tipo di dati sintetici
che usiamo sono i dati che usiamo è
dati sintetici in modo che possiamo effettivamente
costruire un corpo artificiale e e
allenare i nostri modelli su questo e provare a
migliorare i nostri modelli usando i principi
che noi che usiamo per creare il
dati sintetici è leggermente più
complesso ma puoi effettivamente farlo
è così che la demo se qualcuno di voi ha
ho provato la guerra a dare la demo che loro
creare lì è in realtà completamente
sintetico e puoi anche costruire
dati parzialmente sintetici ne impostano uno
abbiamo provato e che in realtà era
usato anche su cosa lavorare era usare a
motore di ricerca diverso per creare il tuo
corpo artificiale in modo da cercare
qualcosa forse due concetti diversi
due parole diverse e poi si mescolano
insieme e rimuovi tutte le tracce
del peggio che hai cercato così
l’unica cosa che rimane o tutto
altra parte del documento e quindi si tenta di
capire se è ancora possibile classificare
cosa era cosa e ed e buttare le cose dentro
la pila giusta così un po ‘circa
i matrimoni di parole così l’autore precedente
accennato qui è un esempio fondamentalmente
quello che fai è costruire una lezione o
in realtà è un tensore, è un
combinazione di vettori quindi ogni parola
o token o frase lavoriamo su frasi in
il nostro corpus è in realtà definito in questo
spazio per conferenze per aggregazione di
vettori che comunemente co-si verifica con
quindi l’ algoritmo tradizionale di parola tyvek
lavorerà solo per creare il trattamento di tutto il testo
come un token ogni token come proprio
vettore e quindi solo poche cose
concatenato perché appartengono
insieme, quindi, pre-elaboriamo il testo
un bel po ‘e capire dopo che abbiamo
deduplicato tutti questi cento milioni
cose siamo giù a così pochi milioni
cose che in realtà hanno decente
Conteggi ricorrenti ricorrenti c’è il
grande problema quando stai guardando
selezioni di testo più grandi è quella
sono una specie di statistica essere di più
improbabile della parola ogni sua parola
proprio così hai un problema con
esempio il flusso di iper-amick non lo fa
necessariamente si verificano che molte volte anche
quando hai un milione di documenti o 10
milioni di documenti è ancora qualcosa
così specifico che ne hai solo pochi
cento occorrenze quindi è importante
cattura tutti loro anche quando l’autore
lo chiama qualcosa di diverso ma dopo
abbiamo fatto tutta quella deduplicazione noi
in realtà finiscono con un corpus cosa noi
può eseguire un modello vettoriale o generare a
modello vettoriale e quindi ne usiamo altri
cose in alto, quindi sappiamo che la coronaria
la vasodilatazione è in realtà definita in un
ontologia è correlata a tutti questi
cose diverse e poi ci uniamo
cose che usano il nostro così strutturato
conoscenza di quel dominio per ulteriori
perfezionare il modello vettoriale ed e quello è
funziona davvero bene per noi ecco questo è
solo un piccolo dump di dati da un test a
tempo fa ma quello che vedi qui sono
frasi e una corrente conti nel
Il corpus test di credo è un milione
articoli e qui puoi vedere come il
è in realtà l’acqua deionizzata di prima linea
parte di un insieme si estende ulteriormente al
giusto ma la prima linea che puoi vedere fare
l’acqua ionizzata è in realtà la stessa o
ha un vettore simile a quello di distillato
acqua ultrapura acqua di acqua tè /
acqua ionizzata o doppia acqua distillata
e questi sono importante notare che
questo è l’output di un modello vettoriale
dove fondamentalmente per ogni concetto in
la prima colonna troviamo la più vicina
concetti più i concetti che
apparire nel modo più
contesto simile quindi l’algoritmo
in realtà non guarda nemmeno il
le lettere ha solo un ID e poi esso
conosce l’ID delle cose che lo circondano e
quindi è abbastanza ovvio che lo sia
effettivamente possibile solo dal
ipotesi è quella parole che significano
approssimativamente lo stesso sono usati in
circa il contesto simile quindi il 10
parole o cinque parole prima e dopo
oltre un milione di documenti sarà molto
simile per cose che sebbene loro
sono diverse frasi significa più o meno
la stessa cosa così puoi vedere quando
le cose sono usate in modo intercambiabile
molto il caso quindi per esempio riga I
Immagino che il ruolo così cruciale sia davvero il 60
più o meno l’uso intercambiabile
con ruolo preminente ruolo vitale
ruolo fondamentale ruolo chiave o
Suona il ruolo essenziale su giusto e
di nuovo è una grande validazione
a volte le persone lavorano con set di dati e
raramente vedono mai come qualsiasi altra cosa
dei valori a virgola mobile qui puoi
effettivamente guardarlo e vedere che lo fa
in realtà ha senso e se sei dentro
dubiti quando facciamo un controllo di qualità limitato
per vedere se le cose sono diventate confuse da
qualche bug introdotto da qualche parte è possibile
sempre come cercare su Wikipedia
o qualcosa vedere ha senso e
Lo considero un ruolo chiave nel ruolo chiave
ruolo essenziale sì sì, in realtà funziona
è possibile eseguirlo anche su
frasi che penso che siamo stati il
prima di fare così il risultato di questo
abbiamo fatto abbiamo creato umano
impronte digitali leggibili, quindi abbiamo per qualsiasi
dato testo indipendentemente dal tipo di
linguaggio usato possiamo estrarne alcuni
frasi che sappiamo cosa significano e
possiamo mapparli al più comunemente
definizione o frase usata che significa il
stessa cosa e per una persona esperta
le arti come dicono è facile
per vedere improvvisamente di cosa parla un articolo
possiamo classificarli e possiamo dirglielo
5 10 cose che sono più importanti e
un Artico
e quando la gente dice se guardi il
grafico lì quando quando quando alcuni
l’autore menziona l’insensibilità all’insulina
e bambini obesi lo sapremo
quell’articolo che è stato scritto una coppia
di anni fa circa oh aspetta ragazze e
la riduzione della risposta ormonale è in realtà
parlando della stessa identica cosa e
questo è un bel salto
nel modo in cui raccomandiamo il testo nella scienza
o effettivamente ovunque così tradizionale
la somiglianza del documento dipende da come ho detto
per ricapitolare le parole che sappiamo cosa
significa a volte la parola può essere parole può essere
ambiguo e questo è un grosso problema quindi
c’è quella che chiamiamo la frase
ipotesi che è ciò che stiamo lavorando
quando hai una selezione più lunga di
parole che si raggruppano nello stesso
moda raramente hanno un altro
nel senso che hanno spesso un preciso
significato ed è questa la capacità di
catturare quelle gare dinamicamente lo è
fondamentalmente quello che facciamo così una volta
hai queste impronte digitali che puoi effettivamente
produrre tutti i tipi di caratteristiche diverse
ciò rende più semplice per i ricercatori
la vita è più facile, quindi quello che abbiamo consegnato
ai partner con cui lavoriamo
incapacità a prima come ho detto evidenziare
le cose che sono più il principale
componenti di un articolo quindi questo è un
pagina dell’articolo che alcuni di voi potrebbero aver visto
uno se cerchi su Google per un
titolo dell’articolo che viene rimbalzato su a
la pagina web del publisher in cui quell’articolo
è presentato e così abbiamo contribuito a rendere che
pagina meglio abbiamo contribuito a rendere più facile per
lettori per capire cosa sta succedendo
e possiamo tirare fuori le frasi chiave e noi
posso raccomandare cose che possiamo dire all’utente
questo è dove hanno menzionato quella cosa
siete interessati a che ne usano alcuni
parole diverse ma è quasi la stessa cosa
cosa e possiamo fornire contenuti correlati
fondamentalmente articoli che stanno parlando
circa le stesse cose e quando lo facciamo
che non solo forniamo un correlato
articolo in realtà ti diremo cosa
è come questo si sovrappone a quello che sei
attualmente guardando così possiamo realmente
mostraci oh questi sono i concetti
attuale qui che si verifica anche nel
articolo che stai guardando e
in realtà possiamo anche averlo fatto
versione interattiva che consente all’utente
per approfondire ed esplorare ulteriormente ha
per contenere questo di questo e poi ottenere un
raccomandazione qui, quindi lavoriamo molto
strettamente con la natura Springer scientifica
American McMillan molti dei più grandi
editori e produciamo cose come
questo quindi immagino il poco difficile da fare
vedere i punti salienti qui, ma in sostanza
questa è la versione non schematica di
quello che ho appena visto ti ha detto a destra
lato abbiamo contenuto correlato che puoi
fai clic su una delle cose che sei
interessato a quindi ottenere una lista filtrata
degli articoli più simili che anche
contiene questa cosa che ti interessa
facciamo anche altri tipi di
visualizzazioni con contenuti correlati noi
può usare la nostra tecnologia per trovare
definizioni di cose così tante di queste
gli editori scientifici hanno una grande schiena
catalogo di opere di riferimento o di insegnamento
libri se lo definirai diverso
concetti in modo che gli utenti possano fare clic su
qualcosa come l’editing di RNA e possiamo
raccogli la migliore definizione che possiamo trovare
nella letteratura degli editori e non
affidati solo alle cose che stanno succedendo
Wikipedia e più interessante siamo
anche lavorando su strumenti di costruzione che
consentono ai ricercatori di vedere di più del
storia che sono roba loro
interessato è una specie di parte di così
ecco uno strumento che chiamiamo timeline
quello per un dato articolo qui in
qualche volta in passato immagino intorno al 2003
l’articolo selezionato lì usiamo il
fare riferimento ai dati di citazione in avanti e
citazioni a ritroso per capire quale
le cose sono state citate da questo articolo e
quali documenti hanno psicizzato questo documento così
avanti e indietro nel tempo ma
è un set molto molto grande perché
quando hai un
articolo singolo citano spesso 10 20 50
altri documenti ciascuno dei quali sito un altro
10 50 100 carte quindi è molto grande
albero e poi quello che facciamo è che noi
praticamente potate quell’albero solo per guardare
ai rami che hanno articoli che
parlare della stessa cosa e di quello
ti permette di identificare abbastanza facilmente un
articolo dello scorso anno di cui parla
la stessa cosa e in realtà attraverso a
un paio di link cita l’articolo che
stai guardando o se lo sei
guardando un articolo recente puoi dire
chi è il primo autore in questa citazione
albero per combinare effettivamente questo e quello
e in un foglio così il valore che siamo
fornire ai ricercatori e questo è
siamo piuttosto orgogliosi di quello che siamo noi
accelerare il percorso verso il successo
scoperta puntando direttamente su cosa
è rilevante in un articolo e possiamo
fornire anche suggerimenti più pertinenti
perché sono molto più precisi di
tecnologie concorrenti e poi noi
fornire così la nostra piccola azienda in realtà
fornisce anche funzionalità per l’utente finale perché
crediamo che sia quella comprensione
degli algoritmi utilizzati e in che modo
in realtà come cambieranno gli algoritmi
favorire le cose diverse e quelle
in realtà è importante per la funzionalità
stai cercando di costruire cosa come come
hai intenzione di classificare questi ed è
in realtà molto dipendente dal tipo di
casi d’uso che stavamo cercando di risolvere
e per i nostri clienti, gli editori
sono davvero felici di poter rotolare
una funzionalità tra molte diverse
tipi di contenuto contestuale anche così dentro
biomedico per esempio ricerca genica o
le malattie da droghe ce ne sono molte
documentazione strutturata molto
nomi di geni zahl di ontologia almeno
scoperto fino a poco tempo fa o
registrato in ontologia di accesso aperto e
e la documentazione è davvero molto buona
in quel piccolo campo di scienza ma
ovunque al di fuori di questo è molto
molto peggio se si guarda alle discipline umanistiche e
jen
bene, ci sono raramente qualche funzionario
l’ontologia è disponibile che te lo dice
quali parole sono importanti o quali
le cose sono un sinonimo di cosa e e così
quello che facciamo è in realtà molto importante
fare per lo sviluppo di questo tipo di
servizi o raccomandazioni per tutti
le altre discipline sono così future
indicazioni bene come ho detto che siamo
attualmente lavorando sulla comprensione del
relazioni tra tutte queste caratteristiche
di cose che estraiamo là sono così
molti modi diversi che puoi dire a
dato cosa e quando parli del
relazione tra due cose c’è
una quantità uguale di modi diversi voi
posso dire le cose così solo il fatto che
il siero consiste principalmente di acqua può essere
detto in tanti modi diversi e e
la cosa film sottile rivestito d’oro
nanoparticelle a cui stiamo lavorando attualmente
un prodotto nano per l’ industria nano
con un partner che può anche essere detto in
un certo numero di modi diversi , ma ciò che è
interessante è ovviamente che questi
relazioni quando si stack up che possiamo
sostituire le due cose il soggetto e
l’oggetto e poi avere un generale
comprensione di come questa relazione
può essere descritto e quindi stiamo cercando di
questa è una grande sfida per noi sta provando
normalizzare e ridurre i tipi di
relazioni tra le cose e il
corpus un altro grande lungimirante
caratteristica è fornire i nostri servizi a
altre aziende che stanno cercando di risolvere
problemi e accesso a non strutturati
testo ma nessuna capacità di elaborarlo così
stiamo lavorando con un paio di grandi
aziende da fare fondamentalmente fare
grandi raccolte di testi calcolabili così così
molto di ciò che facciamo può essere applicato su qualsiasi
dato una sorta di grande raccolta di testo
e puoi fare davvero tutti i tipi
analisi interessante su di esso una volta
sapere cosa è cosa e cosa è simile e
quali sono gli aspetti importanti del testo e
quindi alla fine, perché vogliamo andare, lo è
fare ragionamenti su scala
questo è davvero ciò di cui hai bisogno per
per aumentare la ricerca scientifica più
in modo efficiente devi essere in grado di
ragione, cos’è questo?
catena causale di eventi qui ed è
questo è un fatto controverso, dicono tutti
che questo è come stanno le cose o le cose
cose che potrebbero essere lunghe catene di
naturalmente le alità che passano inosservate
può davvero essere scoperto da massiccia
analytics quindi immagino il massimo
prezzo c’è la cura per il cancro così così
Immagino che abbiamo una piccola squadra che siamo
effettivamente situato in quasi in seconda
città della Danimarca erano 18 persone credo
ora e tutti hanno lavorato a
grandi grandi aziende internazionali
e fondamentalmente scelto per venire a lavorare
con noi quattro miseri salari e vita
nei sobborghi perché siamo così eccitati
sulla promessa di assistere la scienza
non abbiamo clienti danesi che lavoriamo tutti
con editori internazionali sì e sì
stiamo assumendo e quindi sentitevi liberi di applicare
dove stiamo crescendo adesso e lo farei
amo ricevere le domande per te
ragazzi quindi penso che questo concluda il mio discorso
e mi piacerebbe rispondere alle domande che ci sono
una tonnellata di dettagli che ho lasciato fuori che se
hai qualche tipo di ci sono davvero
molte domande a chi sei stato exid
stanno facendo domande in questo modo
il primo è l’analisi kick stream
utilizzato per analizzare i dati comportamentali come
collegamenti ipertestuali tra gli articoli e voi
usa la scintilla per questo sì, penso che ti facciamo
scintilla quindi confesso anche se io
cresciuto con un computer e una rana codificati
demo sul mio c64 e nei miei genitori
camera da letto negli anni ’80 in realtà no
Io lavoro come sviluppatore nella nostra azienda
uno dei fondatori e io vendo il
visione in modo che io possa effettivamente rispondere
esattamente noi
guarda i dati clickstream ma soprattutto
non è limitato al profilo
costruzione non sorta di analisi di sessione
perché noi facciamo c’è molto rumore
e le persone si distraggono quindi se lo hai
clic successivi attraverso un corpus
davvero solo attributi che ti dice
qualcosa su ciò che gli utenti
interessato a non necessariamente che il
cose su cui fanno clic correlati
perché le persone si distraggono quindi sì
usiamo i clic ma non realmente i flussi e
se si usa se si mantiene l’esca no
quella minuta manipolazione va bene
sono stati effettivamente invitati a fare questo così sì
quindi penso che ci sia sempre
quando lavori con grandi
corporazioni hai diversi livelli
di gestione e hanno questo
diverso tipo di prestazioni chiave
indicatori e e le persone che lavorano
nel front end vorrebbe vedere un
funzione utilizzata in modo che è necessario ottimizzare il
i dati per una funzionalità da utilizzare penso
è in app Credo che al motivo per cui ho
può ancora addormentarsi di notte è che io
pensa che quello che stiamo facendo è enormemente
superiore al tipo tradizionale di codice
scaricare le statistiche utilizzate in
la scienza normalmente le cose che ottengono
raccomandato da tutti gli editori scientifici
sono le cose che altre persone
scaricalo la stessa sessione e penso
uno dei maggiori problemi con quello
solo per fare un piccolo diversivo qui è
che quando guardi solo comportamentale
dati che non hai assolutamente modo di
raccomandando quel nuovo articolo che è venuto
fuori ieri perché non hai
dati comportamentali ad esso allegati ed è
un problema che chiamiamo Coast
a meno che tu non riesca a identificarlo
l’articolo è molto simile a quest’altro
articolo che ha dati comportamentali che puoi
in realtà non fare un recente
raccomandazione fino all’incidente persone
inciampare su di esso e tu sai chi
effettivamente fatto qualcosa con esso così così io
pensa quello che facciamo qui ovviamente questo è
una cosa di Jekyll e Hyde quindi la migliore
soluzione è sempre una combinazione di
due fattori
come si fanno le regole per la classificazione
parole o frasi che sono molto
dominio specifico tra i molti
diversi ambiti di ricerca quindi non c’è
alcune in realtà pochissime frasi che sono
esattamente simile attraverso ho molto
significati diversi ma io ho uno chef
sintattico molto simile tra i domini
e la maggior parte di questo problema abbiamo in realtà
sorta di circum navigato guardando
frasi più lunghe e filtrando questo
roba che testa che ha ambivalenza così
vedrai che cerchiamo di no
menziona cose che menzionate da sole
può significare cose diverse da quelle che aggiungiamo
gettone aggiuntivo di fronte spesso
tempi diventa molto meno ambiguo e
allora preferiamo quello e quello è
è semplicemente la cenere e la soluzione algoritmica
non qualcosa che abbiamo hard code ma noi
effettivamente guardi quelli che hanno
ambiguità e cercare di scegliere frasi più lunghe
sono super insiemi che hai incluso
non facciamo alcun tipo di personalizzazione
avere un prodotto per la personalizzazione
perché non è una grande patata bollente
nella scienza le persone sono davvero paura di
essere rintracciati perché pensano di loro
avere la cura per il cancro e loro no
Voglio che la cronologia delle ricerche sia completa
no go e per la maggior parte dei clienti
lavoriamo con così non abbiamo non abbiamo
un prodotto ancora pensiamo che sia incredibilmente
interessante e ci piacerebbe farlo ma
non abbiamo un partner con cui farlo
e probabilmente sarà fuori
scienza e qual è la scala dei dati
usato nella vostra elaborazione quanti stati
aveva parole per addestrare il tuo modello così così
questa è un’altra cosa dei primi due
stiamo provando anni della nostra startup
per costruire una scuola di google studioso
concorrente che volevamo costruire a
sito di destinazione in cui gli utenti potrebbero venire
cerca negli articoli a testo completo non vedere il
articoli a testo integrale ma ci piacerebbe
li rende per editori e quindi link
fuori a
vera costante e abbiamo parlato con molti
diversi editori scientifici e loro
tutti hanno detto che è un’idea brillante e
hanno avuto così tanti incontri con noi per
due anni e hanno detto oh ecco
un altro campione di prova che puoi avere
il nostro contenuto e hanno detto e una volta che siamo
pronto per andare avrai questo disco rigido
con una tonnellata di articoli e sarà no
problema tutti saranno felici e poi
dopo due anni e solo poche migliaia
articoli da ciascun editore e una tonnellata
di riunioni in cui hanno chiesto del nostro
tecnologia, profondità e dettagli siamo andati
fuori e una notte sono a Londra I
ricorda e uno dei product manager
oppure era in realtà un livello V VP in uno
di quelli a dente di sega pubblicati su una birra
hai detto che sai che non succederà mai
ti stanno solo tenendo vicino perché
vogliono sapere che tipo di
tecnologia che stai sviluppando e penso
alcuni mesi dopo ci siamo fatti strada
un business plan diverso in cui noi
fornire il nostro valore al posto di troppo poco
materiale ad accesso aperto abbiamo deciso di lavorare
nell’ambito degli editori
e sii loro amici e così ora cosa
stiamo fornendo i nostri servizi
che sono principalmente focalizzati sull’uso
dati di un editore per eseguire servizi
per quei clienti editori e così via
i clienti più grandi editori hanno 10 a
15 milioni di articoli alcuni dei
gli aggregatori hanno più ma la maggior parte di
i nostri clienti hanno meno di 10 milioni
documenti così con ogni documento essendo io
non so poche centinaia di K in semplice a
sci che non sia una matta quantità di dati
è un po ‘di terabyte per un più grande
editore così come trovato jonathan schwartz
fuori potrebbe facilmente essere scaricato ovunque
in internet ma tutti lo sarebbero
denunciato bene
avrebbe senso stampare piuttosto a
l’articolo lo normalizza e lo ripubblica
insieme all’originale e ti ha fatto
avere uno strumento per questo, quindi no, non noi
non può fornire accesso al testo completo
lavoriamo con gli editori e lo sono
è un business molto strettamente controllato
sono il loro principale asset aziendale a
almeno fino a quando l’accesso aperto diventa più
dominante è il concetto che possiedono
e controllare in modo che non possiamo davvero fare
molto con esso tranne a porte chiuse
abbiamo avuto quando abbiamo lavorato con Elsevier per ultimo
anno come le forme che dovevamo compilare
per la conformità della sicurezza ero pazzo io
pensa a centoquarantasette pagine
schede in un foglio excel con un centinaio
domande in ciascuna in modo che fosse solo il
pegno e sono le domande del sondaggio
prima che mandino una persona così sì
sono davvero pazzi
sicurezza che io uso dump l’architettura
e puoi parlare di ciò che non sono
familiarità con l’architettura lambda che conosco
come i coefficienti lambda lambda ma no
probabilmente non lo sappiamo chi lo sa bene
qual è il più interessante che ti trova
aveva fatto nei tuoi dati per il cancro che è
non l’abbiamo ancora trovato e io
Immagino che lo avremmo pubblicato così
siamo un fornitore di servizi con cui lavoriamo
ciò che l’industria chiamava materia
esperti o PMI e quindi abbiamo modelli
cosa convalidiamo la qualità di ciò che noi
fare e quindi i tassi di errore, ecc
tutti i test automatizzati e poi naturalmente
lo eseguiamo con una selezione di un pannello di
veri scienziati che possono guardarlo e
quindi conosci il contenuto che abbiamo
elaborato e può dire se c’è un
errore da qualche parte una parola che abbiamo lasciato fuori
questo era importante ma non possiamo davvero
valutare noi stessi
quindi sappiamo che lo scientifico
editori lavoriamo con gli editori
ci dicono che abbiamo il meglio
algoritmi di estrazione che producono il
frasi e risultati migliori e più utilizzabili
in modo che questo sia ciò che stiamo facendo in realtà
non so cosa viene usato per bene
che dire degli articoli pubblicati nel
pubblico dominio pubblicato su open
piattaforme che sto indicizzando e presentando
articoli su questi e lo trasforma il
fonti sì, stiamo lavorando con una coppia
di editori ad accesso libero e mi dispiace
su questo e così il modello di accesso aperto
ha una sorta di pubblicazione al suo interno
dove tradizionalmente tradizionale
gli editori effettivamente pubblicano le tue cose
gratis finché si effettua l’accesso
copyright per accesso aperto si deve
pagare per il processo di revisione peer-to-peer
e la pubblicazione, ovviamente, quel costo
è venuto giù molto da qualche anno fa
ma tu paghi ancora circa 2.000 euro a
pubblicare un articolo e quel tipo di put
un po ‘di smorzamento sulla crescita di open
accesso ma ma lavoriamo con alcuni di
i fornitori di accesso aperto e abbiamo
questa idea quando abbiamo iniziato la nostra azienda
che vorremmo semplicemente aggregare tutto di aperto
fonte e va bene buona fortuna se tu
voglio provare perché le uniche persone che
sono riuscito a fare qualcosa di vagamente
assomigliante che sono solo aggregando il
metadati perché si scopre che
le persone pubblicano i loro articoli in
in un gazillion diversi formati su a
gazillion diversi siti web dove
a volte scarica la noia alle spalle
una specie di I’m not a robot capture e
è davvero difficile da raggiungere
contenuto è il più grande errore che
la comunità ad accesso aperto ha fatto è
non è d’accordo su alcuni standard di presentazione
che consente a quei dati di andare lì testo
essere estratto e io proprio non vedo perché no
uno è venuto e ha detto che è come te
fai questo è il formato dacci un jet
file xml proprio qui su un server ftp
buttalo lì e lascia che sia la comunità
fai il resto ma non è stato fatto così
non è il
non è un compito per le start-up
incredibilmente dispendioso in termini di tempo
migliaia di diverse sottomissioni
forfeits e PDF voglio dire che potresti pensare
Il PDF è un bel formato ma gira
fuori che a volte il renderer lo farà
scambia l’ ordine delle frasi in giro
ed è impossibile capire quale
la frase è finita qui o tu
non voglio saperlo, quindi dobbiamo farlo
chiedi a qualcun altro di occuparsene e
allora possiamo fare l’open source open source
in pochi anni hai qualche tipo di
best practice per eseguire annunci in plication
processo in cui diversi apprendimenti profondi
i metodi potrebbero essere applicati non sono sicuro di me
capisci la domanda ma ce l’abbiamo
quindi questo è il valore aggiunto chiave e io sono
scusa non posso condividere il codice sorgente è
stiamo cercando di costruire un business se
tu vuoi lavorare con esso dovresti venire
per noi abbiamo la pipeline come quella
stiamo costruendo è su questo ed è
in modo iterativo, riutilizziamo le cose che abbiamo
imparato altrove e noi fondamentalmente
abbiamo lavorato internamente al team
scriviamo white paper abbiamo discusso
a vicenda ed è un set meraviglioso
per favore, vieni onesto, questo si applica
bene ai documenti di informatica oh si
archivio abbiamo indicizzato l’archivio una volta
ma non l’abbiamo impostato per la reindicizzazione
e penso che dovremmo mangiare tutto
il tuo cibo per cani, quindi dovremmo prenderlo
che funziona di nuovo quando arriviamo
intorno a destra abbiamo questi altri
lavori che pagano soldi che dobbiamo fare
per prima cosa hai provato il nostro lavoro tecnologico
per le lingue diverse dall’inglese no noi
non hanno trovato nessuno disposto a pagare
ma la maggior parte di ciò che facciamo può essere
trasferito in altre lingue e
non sono fluente in tedesco, ma penso
forse ci sono alcune regole che lo farebbero
deve essere
per la loro grammatica ma non c’è niente
praticamente impedendogli di essere
portato in altre lingue che abbiamo
stato chiesto di fare cinese per l’analisi IP
di analisi brevettuale ma gli strumenti che
tutti gli altri stanno usando è fondamentalmente alcuni
tipo di traduzione automatica e poi
applicando l’analisi del testo in seguito quale
è probabilmente inferiore ma rende di più
senso in una prospettiva di costo
sfortunatamente, penso che sia molto
di domande, grazie per questo e facciamo
dì grazie per pasticciare grazie

Please follow and like us: