Press "Enter" to skip to content

GOTO 2016 • Discovering Research Ideas Using Semantic Vectors & Machine Learning • Mads Rydahl


привет и спасибо, что присоединились к нам так
Я часть небольшого запуска
здесь, в Дании, он знает, что называется на силосе
мы работаем с большими научными издателями
обрабатывать информацию о статье и
сделать инструменты для исследователей, и, возможно,
Я должен начать с объяснения
миссии, которую мы создали четыре года назад, мы
начала свою работу, поэтому наша идея состояла в том, чтобы
создать систему поисковых сервисов
что могло бы облегчить поиск паттернов
через много неструктурированного текста сегодня
или пару лет назад, как все
были связаны, когда вы смотрели на
статьи и попытаться найти что-то
аналогичное использование аннотированного человека
ключевые слова редакторов, вот как вы находите
связанных с наукой и большими
проблемы, которые мы видели с системой
так как это было потому, что
язык постоянно развивается и
растет , и новые вещи , в настоящее время
обнаружили, что невозможно идти в ногу
с каким-то ручным указанием содержания
также система должна быть всезнающей
потому что в настоящее время это как автор и
редактор, который смотрит на бумагу и
пытается решить, что важно
аспекты этой статьи, а иногда
действительно интересные открытия
на самом деле очевидны только в ретроспективе, поэтому вы
нужна автоматизированная система, которая может
соотносить новую статью две тонны
другие вещи, которые в настоящее время происходят
выяснить, если люди в Китае
что-то точно похожее на то, что
вы пытаетесь это сделать, тогда, наконец,
быть объективным, потому что сейчас у нас есть
эта проблема большая часть
рекомендациями и концепцией curation
это автоматизировано сегодня, основано на
совместная фильтрация или, как
вещи, которые вы видите на людях Амазонки, которые
купил это тоже купил , что она имеет тенденцию к
ведут нас по тому же пути, и он имеет тенденцию
чтобы исследователи пытались сделать
то, что вы идете прямо
интересный материал, потому что это то, что
все остальные также делают так, что нам нужно
беспристрастный подход, который не зависит от
какой-то рейтинг популярности, как
ранжирование страницы или совместная фильтрация
звук немного странный, это нормально, я не
есть этот модный кликер, поэтому ядро
технология, которую мы построили, основана на
много компонентов с открытым исходным кодом или
как минимум три компонента, мы имеем
построена конвейерная обработка документов
вокруг batchi вы eema и брута и
у нас есть класс стандартных природных
конвейер для обработки текстов и инструменты
Кроме того, мы используем общие
языки, такие как Python для прототипирования
Java и множество библиотек и
я думаю, набор инструментов для ученых данных
ключевая задача — это то, что мы пытаемся
делать это неструктурированное знание
текст в основном не вычисляется, поскольку я
сказал, что впереди слишком много вещей
чтобы люди принимали участие в этом
процесса, и даже когда люди
участвуют на более высоком уровне в строительстве
онтология должна представлять знания
что у нас есть определенная дисциплина
это не будет достаточно быстро все
Интересный материал, который был обнаружен
вчера или в последний месяц или даже шесть
месяцев назад не превратилось в аа
однако, если вы действительно
хочу быть на переднем крае, где
деньги есть и и где и что имеет значение
в исследовании вам действительно нужно больше
динамический подход, даже если есть
словари и справочники , это
это не просто непонятно
достаточно, а затем вторая большая проблема
что у нас есть то, что люди тоже
они не используют
просто одно имя для определенного явления
у них много разных вариантов и
они часто добавляют описательную деталь в
их собственный язык, который делает абсолютно
нет смысла для компьютера и делает это
действительно сложно понять, что
они на самом деле говорят о том, что есть
нет правильного способа описать что-либо в
Мир и мы как — то должны понять
о чем говорят люди , так как
Я сказал, наконец, все это все
данные, которые люди считают очевидными
это, вероятно, самая большая проблема для
для аналитики сегодня или для компьютерного ИИ
в общем, все, что люди
считают очевидным, а затем не
включить в описание чего-либо такого
это ключевые проблемы, которые
что мы пытаемся решить, вот
часть текста — статья от 2006 года
и если вы используете регулярный вид
полнотекстовый поиск или
стандартная поисковая система, и вы бросаете
это абстракция статьи
реальная статья, вероятно, в десять раз больше
долго, тогда действительно трудно увидеть
что этот текст действительно и если я
прочитайте это, как я могу понять, что еще
в статьях рассказывается об одних и тех же вещах
сегодня мы используем компьютеры для комментирования
слова, которые мы знаем, что означает, что эти
это слова, которые встречаются в общих чертах
рода словарей и онтологии
это из этой области, и у нас есть
компания разработала гораздо больше
всеобъемлющий способ взглянуть на это и
динамически статистически
более длинные фразы, которые означают вещи, и мы
выяснить , что означает приблизительно
из которых
то же самое и прямо сейчас, как я сказал в
я думаю о замечаниях к разговору
Я тоже попытаюсь немного поговорить
бит о том, где мы хотим принимать вещи
и о том, над чем мы сейчас работаем, и
это не так, как вы можете видеть, что мы
пытаясь охватить всю информацию
на самом деле в статье попытайтесь сопоставить
это и сделать его доступным для поиска.
обнаружимого
и мы в настоящее время работаем на все
действия и отношения между
эти вещи, так что, когда вы найдете материал
что говорит о a и B больше всего
соответствующая статья, вероятно, одна
который говорит об a и B и
примерно такой же контекст или
то же предложение или даже говорит о том, как
связано с B сегодня, вы также можете сделать
это с некоторым количеством расстояний
между словами, когда вы используете
традиционная поисковая система, но вещь
когда вы работаете с чеками, тогда
иногда количество слов между ними
пересечь границу абзаца или иногда
это текст изображения, который находится рядом с
это действительно интересная другая вещь, которая
вы искали так и другое
раз на самом деле то, что вы
заинтересованный здесь упоминается здесь с
это третья вещь, а здесь другая
вещь упоминается с этим третьим
поэтому они действительно очень тесно
но они просто такие странные концы
статьи, поэтому вам нужно лучше
понимание этого, и мы на самом деле
использовать графическую аналитику для понимания
близость вещей и центральность
вещей в статье, поэтому первый
шаг, который мы выполняем, является регулярным естественным
обработка языка некоторые из вас могут быть
знакомый с этим, но самая простая часть
естественного языка, обрабатывающего
вещь, которую вы делаете без лишних
вычисление — это сила речи
пометка в основном назначения классов слов
для каждого слова это глагол, или это
существительное в этом контексте состоит в том, что
прилагательное, и как только у нас есть часть
мы фактически можем найти
много кандидатов на потенциальные вещи
в предложении, чтобы вы могли видеть здесь
у нас есть предложение из реферата вы
просто видел методы измерения натрия
концентрация в сыворотке по косвенным
натрий-селективный седловидный селективный электрод
потенциометрия, поэтому я выделил
снизу для тех, кто не читает
статьи на ежедневной основе есть
четыре вещи здесь в действии, если вы
придет и выступит, и если мы выберем
все вещи здесь кажутся довольно
прямо так, так что
говядина
так что получается, что вы можете сказать это в
много разных способов, и если вы хотите
см. другое содержимое, которое тесно
связанные с этой статьей, вам нужно состыковать
не просто взгляните на те, которые включают
эти точные слова вам нужно также посмотреть
на тех, которые упоминают эти же
вещи по- разному, поэтому мы должны
дедуплицировать в основном, поэтому мы работаем с
Природа Спрингера, которая является одной из
крупных научных издателей в
мир, они дали нам все их
и мы просеивали его, мы
найденный на другой стороне сто
миллионов вещей в их содержании, и мы
затем после обработки, что в различных
способы дедуплицировать до двух
или три миллиона разных вещей и
даже когда вы на два или три
два или три миллиона разных вещей
у вас все еще есть разделение между вещами
который может быть читателем для человека,
в основном то же самое, поэтому есть
много дедупликации, которую вам нужно сделать, если
вы можете посмотреть здесь примеры
концентрация натрия может быть отображена
обратно к концентрации натрия вы можете
также имеют такие предложения, как
электро потенциометрия была косвенной
очевидно, что это то же самое, что косвенные
геометрия электродов, с которыми вы можете поговорить
некоторые люди любят называть вещи
методологии, а не метода и
иногда люди говорят об нуле и
а не сыворотке, так что
то, что мы называем морфологическими или
синтаксические вариации в основном
вещи, которые зависят от грамматики, мы
также попытайтесь уменьшить лексическую и
семантические вариации, когда авторы
использовать синонимы или имена гипо, которые
как более общие общие термины для
то же самое для четырех частей нашего
мы тоже так делаем
абстракции, поэтому, когда кто-то говорит
метод, мы можем сопоставить это с
общий термин, называемый механизмом сыворотки
образец это на самом деле тип крови
образцом, подобным сыворотке, является кровь с
что-то отфильтровано, это не мое
первичный
концентрация и концентрация натрия в сыворотке
хорошо натрий на самом деле, я думаю, что
Американский термин для природы, или это также
использовать это иногда и косвенно
геометрия электродов, которую мы имеем
теперь увидимся через пару раз
фактически, тип электроанализа
когда мы смотрим на более длинные предложения или
длинные фразы мы на самом деле пойти и
замените каждый из токенов более
общий термин , чтобы выяснить , если это
на самом деле вариация чего-то, что
мы видели, прежде чем все это действительно
не имеет ничего общего с машиной, изучающей это
это просто закодированное понимание
лингвистические вариации, поэтому мы имеем
сложные парафразы и эжекционные
модификаторы и координаты, где вы
упомянуть такие вещи, как концентрация
натрий и магний могут быть расширены
в концентрацию магния и
концентрация натрия и все эти
которые нам действительно нужны
выполнить, прежде чем вы сможете сделать любой тип
своего рода обобщенное понимание и
тогда финал к нескольким вещам там
часто мы смотрим на фрагменты
что-то еще или мы смотрим на
то, что содержит фрагмент, который
более интересно, поэтому иногда это
косвенная потенциометрия и никто
еще в мире когда-либо ставили натрий
выборочно между ними, поэтому мы должны
определить это и взять своего автора
конкретные варианты из вопроса
потому что они означают абсолютно ничего
кто-нибудь еще в мире, и здесь мы
приходят также к этому вопросу добавления
дополнительные описательные детали, которые могут
действительно быть в пути понимания
что происходит так клинически
реализованы косвенные
избирательный избирательный избиратель
что бы это ни было
которые мешают пониманию
о чем сейчас говорят
как только мы дедуплицировали все это
тонны вещей, на которые мы смотрим
различные типы функций
поэтому локальные функции в документе
укажите, сколько раз это упоминается
с чем мы связаны
вычислить позицию в графе документов
мы связываем все вещи в упоминании
в документе с отношениями
которые соединяют их, а затем делают регулярные
сортировать график, чтобы выяснить
что центральный и какой же
периферическая к тому , что в настоящее время говорили о
так что вы можете иметь что-то, что только
упомянутый однажды, но действительно центральный
потому что это связано с тем, что
центральная вещь, и у вас может получиться
здесь можно упомянуть пару
раз, но всегда по отношению к вещам
это не центральное, а затем
Конечно, мы запускаем эти другие типы
аналитики, которые используют текстовый контекст
поэтому слова справа и справа
после фрагмента текста
функции, которые мы используем, также
число записей количество документов
которые содержат данную фразу, и мы запускаем
различные причудливые алгоритмы
выяснить, какие наиболее распространенные
если у вас есть набор Engram
если вы будете фразой слова, что
наиболее часто используется вариант, если вы
добавьте дополнительное прилагательное
какое наиболее часто используемое прилагательное
или какие две самые распространенные вещи
и они достаточно различны
разные, чтобы быть двумя разными вещами
то, конечно, мы также вычислим, я думаю
многие из вас, вероятно, также знакомы с
tf-idf, который в основном является отклонением
по частоте от нормы, поэтому, если
вещи происходят чаще, чем на
в среднем это значительная
фраза, возможно, и тогда мы посмотрим на
распределение по всему корпусу, так что вещи
вещь можно упомянуть очень мало раз
но всякий раз, когда кто-то использует эту вещь
они упоминают это снова и снова в
тот же документ,
вероятно, получил некоторое значение, но если
вы смотрите на него по всему миру и просто считаете
количество документов, которые он имеет в нем
может показаться незначительным, поэтому мы имеем это
Концентрацию счет которой платить
болезненный говорит нам, когда это происходит
в документе, насколько это возможно
происходить более одного раза, а затем мы также
провести анализ, сравнивающий
распределение в доменных регионах
что это то, что очень
но только в определенной области и
все эти вещи затронуты
наши алгоритмы обучения или ранжирование
мы также используем агрегированные
текстовый контекст, и это я
собираюсь вернуться к этому в немного
в то время как это слово для Вика или слова
модели вложений, которые предыдущие
спикер также упомянул так, если мы посмотрим на
все вхождения данной фразы
по всему корпусу, который говорит нам
что-то о том, что это значит или что
другие вещи могут означать одно и то же
и тогда, конечно, самая большая вещь
когда вы пытаетесь обучить модель,
что вы его тренируете
у нас есть два типа вещей, которые мы можем
тренируйтесь, у нас есть данные о человеческом обучении
это может быть сами мы статьи
выяснить, если у нас есть, и я
цели, что данная концепция очень
центральное место в статье , мы можем сравнить его
и посмотреть , если мы действительно нашли его в
аннотация, поэтому, если он находится в абстрактном или
в названии как высокая вероятность того, что
автор также считает это важным
так что это одна точка данных, а затем
суммарно более тысячи или миллионов
статьи, которые действительно могут сказать нам, как
хорошо, что мы выбираем то, что
авторы считают важным, конечно, если мы
думаю, что мы можем сделать лучше, чем авторы
это мерзкий способ измерить его, чтобы мы
также использовать другие виды обучения людей
данные поведенческих данных от компаний
мы работаем с ними, любезно разрешаем нам доступ
к шаблонам использования, когда мы представляем
что-то для пользователей, какие из этих вещей
которые мы извлекли, они на самом деле нажали
находят интересные и
статей при представлении списка
статьи, связанные со статьями
например, на боковой панели, какая из этих
были признаны наиболее интересными или
нажал на от пользователей получается из
конечно же, с перспективными
заголовки, на которые
обязательно те, которые больше всего
так что иногда вам нужно сделать
корректировки только для создания некоторой ссылки
приманки, так что другие типы синтетических данных
что мы используем данные , которые мы используем
синтетические данные, чтобы мы могли на самом деле
построить искусственный корпус и
обучите наши модели и попытайтесь
улучшить наши модели, используя принципы
что мы используем для создания
синтетические данные немного больше
но вы можете это
вот как демо, если кто-либо из вас
попробовал войну, чтобы продемонстрировать, что они
создать на самом деле полностью
синтетический, и вы также можете построить
частично синтетические данные наборы, которые
мы пытались , и что на самом деле это было
также используется для работы, чтобы использовать
различные поисковые системы для
искусственный корпус, чтобы вы искали
что-то может быть две разные концепции
два разных слова, а затем вы смешиваете
их вместе, и вы удаляете все следы
из худшего, что вы искали так
единственное, что осталось или все
либо в документе , а затем вы пытаетесь
выяснить , можете ли вы по-прежнему классифицировать
что было то , что и и и свалка вещей в
правая куча, так немного о
слово вложения, так что предыдущий автор
упомянутый здесь пример в основном
что вы делаете, вы строите лекцию или
это на самом деле тензор, это
сочетание векторов, так что каждое каждое слово
или токен или фраза, мы работаем над фразами в
наш корпус фактически определен в этом
пространства лекций путем объединения
векторы, с которыми он обычно сталкивается
поэтому традиционный алгоритм слова « тивек»
будет просто работать над созданием обработать весь текст
как токен каждый токен как собственный
вектор, а затем только несколько вещей получают
конкатенированы, потому что они принадлежат
вместе мы предварительно обработаем текст
довольно много и выяснить после того, как мы
дедуплицировали все эти сто миллионов
вещи, которые мы имеем до стольких миллионов
вещи, которые у них на самом деле достойные
число повторных случаев связано с тем, что
большая проблема, когда вы смотрите на
более широкий выбор текста — это то, что
они как бы статистические данные больше
маловероятно, чем слово каждое слово на его
так что у вас есть проблема с
экземпляр гипермаксимального потока не
обязательно, что много раз даже
когда у вас есть миллион документов или 10
миллион документов, это все еще что-то
настолько конкретный, что у вас есть только несколько
сотни случаев, поэтому важно
захватить их всех, даже если автор
называет это чем-то другим, но после
мы сделали всю эту дедупликацию, мы
на самом деле в конечном итоге с корпусом, что мы
может запускать векторную модель или генерировать
векторной модели, а затем мы используем другие
вещи сверху, поэтому мы знаем, что коронарный
вазодилатация фактически определена в
онтология связана со всеми этими
разные вещи, а затем мы объединяем
вещи, использующие наши так структурированные
знание этой области для дальнейшего
уточнить векторную модель и и это
работа очень хорошо для нас, вот это
просто небольшой дамп данных из теста a
в то время как то, что вы видите здесь
фразы и ток счета в
Я считаю, что тестовый корпус — миллион
статей, и здесь вы можете видеть, как
первая линия деионизированной воды это на самом деле
часть набора, которая распространяется дальше на
но первая строка, которую вы можете увидеть,
ионизированная вода на самом деле такая же или
имеет аналогичный вектор, такой как дистиллированный
вода сверхчистая вода ди вода чай /
ионизированной воды или двойной дистиллированной воды
и важно отметить, что
это результат векторной модели
где мы в основном для каждого понятия в
в первом столбце находим ближайший
концепций наиболее понятны, что
появляются в большинстве
аналогичный контекст, поэтому алгоритм
на самом деле даже не смотрит на
буквы имеют только идентификатор, а затем он
знает идентификатор вещей вокруг него и
поэтому довольно очевидно , что это
фактически возможно только из
гипотеза — это слова, которые означают
примерно такие же используются в
примерно аналогичный контекст, так что 10
слова или пять слов до и после
более миллиона документов будут очень
похоже на то, что, хотя они
разные фразы означают более или менее
то же самое, чтобы вы могли видеть, когда
вещи используются взаимозаменяемо, что
это очень важно, например, строка I
думаю , 60 так решающая роль на самом деле является
более или менее взаимозаменяемые
с важной ролью
фундаментальная роль, решающая роль или
существенная роль звучит о правильном и
опять же, это большая проверка
иногда люди работают с наборами данных и
они редко когда-либо видят, как что-либо еще
чем значения с плавающей запятой, здесь вы можете
на самом деле посмотрите на это и посмотрите, что делает
на самом деле имеет смысл, и если вы находитесь в
сомневайтесь в себе, когда мы делаем вид ограниченного QA
увидеть, что вещи обрушились
какая-то ошибка появилась где-то
всегда так же, как искать его в Википедии
или что-то посмотреть, это имеет смысл и
Я думаю, что он настолько ключевой роли ключевого игрока
важная роль да, поэтому она действительно работает
это можно запустить даже на
фразы, которые, я думаю, мы были
сначала сделать так, что это
мы сделали, мы создали человека
читаемые отпечатки пальцев, чтобы мы
данный текст независимо от типа
используемого языка, мы можем извлечь некоторые
фразы, которые мы знаем, что они означают и
мы можем отобразить их наиболее часто
используемое определение или фраза, что означает
то же самое и для лица,
искусство, как они говорят, это просто
внезапно увидеть, что такое статья о
мы можем ранжировать их, и мы можем сказать вам
5 10 вещей, которые являются наиболее важными и
Арктика
и когда люди говорят, если вы посмотрите на
график там , когда , когда , когда некоторые
автор упоминает нечувствительность к инсулину
и дети с ожирением, мы будем знать, что
в этой статье написана пара
лет назад о ой ждут девушек и
снижение гормонального ответа на самом деле
говоря о том же самом и
это то, что это очень большой прыжок
в том, как мы рекомендуем текст в науке
или даже где-нибудь так традиционно
сходство документов зависит, как я сказал
вспомнить слова, которые мы знаем, что
означает иногда слово может быть словами может быть
неоднозначный, и это большая проблема, поэтому
есть то, что мы называем фразой
гипотеза, которую мы работаем
когда у вас есть более длинный выбор
слова, которые складываются вместе в одном и том же
в моде они редко имеют разные
что они часто имеют очень точное
смысл, и это способность
захватывать эти расы динамически
в основном, то, что мы делаем, когда вы
у вас есть отпечатки пальцев
производить все виды различных функций
что облегчает для исследователей
так проще, чтобы мы
партнерам, которые мы работаем с нашими
неспособность сначала, как я сказал, выделить
вещи, которые являются главными
компонентов статьи, так что это
статьи, некоторые из вас, возможно, видели
один, если вы ищете в Google для
название статьи вы получите отскочил к
веб-страницу издателя, где эта статья
и поэтому мы помогли сделать это
страницы мы помогли облегчить
читателей, чтобы понять, что происходит
и мы можем вытащить ключевые предложения, и мы
может рекомендовать материал, который мы можем сообщить пользователю
вот где они упомянули эту вещь
вы заинтересованы в том, чтобы они использовали некоторые
разные слова, но это примерно то же самое
и мы можем предоставить связанный контент
в основном статьи, которые говорят
о тех же вещах, и когда мы делаем
что мы не только
статьи, мы бы сказали вам, что это
как это накладывается на то, что вы
в настоящее время смотрим, чтобы мы могли на самом деле
покажите вам, о, это концепции
текущий здесь, что также происходит в
статью, которую вы сейчас смотрите и
мы также можем на самом деле сделать
интерактивная версия, которая позволяет пользователю
для углубления и дальнейшего изучения
чтобы содержать это , чем это , и затем получить
рекомендация здесь, поэтому мы работаем очень
тесно с природой Springer Scientific
Американский Макмиллан многие из крупнейших
издателей, и мы производим такие вещи, как
это так, я думаю, что трудно
см. основные моменты здесь, но по существу
это не схематическая версия
то, что я только что видел, сказал вам по праву
сторона мы относили содержание вы можете
нажмите любую из вещей, которые вы
заинтересованный, затем получите отфильтрованный список
из наиболее похожих статей, которые также
содержащую эту вещь, которую вы заинтересованы
мы также делаем и другие типы
визуализации с соответствующим контентом мы
может использовать нашу технологию для поиска
определения вещей, многие из которых
у научных издателей есть большая задняя часть
каталог справочных работ или обучения
книги, если вы это определите
концепции, так что пользователи могут нажать на
что-то вроде редактирования РНК, и мы можем
подобрать лучшее определение, которое мы можем найти
в издательской литературе, а не
полагаться только на вещи, это находится на
Википедия и более интересные мы
также работает над строительными инструментами, которые
позволяют исследователям видеть больше из
история, что материал, который они
заинтересованный — это своего рода часть
вот инструмент, который мы называем временной шкалой
что для данной статьи здесь в
когда-то в прошлом я предполагаю около 2003 года
в выбранной статье мы используем
ссылаться на данные цитирования вперед и
обратные цитаты, чтобы выяснить, какие
вещи были упомянуты в этой статье и
какие бумаги
вперед и назад во времени, но
это очень большой набор, потому что
когда у вас есть
в одной статье они часто цитируют 10 20 50
другие документы, каждый из которых
10 50 100 документов, так что это очень
дерево, и тогда мы делаем то, что мы
в основном обрезать это дерево, чтобы просто посмотреть
в филиалах, где есть статьи, которые
говорить о том же и что
позволяет довольно легко идентифицировать
статья из прошлого года, в которой говорится о
то же самое и фактически через
пара ссылок приводит статью о том, что
вы сейчас смотрите или
глядя на недавнюю статью, которую вы можете сказать
который является первым автором в этой цитате
дерево, чтобы фактически объединить это и что
и в бумаге, так что ценность, которую мы
предоставляя исследователям, и это
мы гордимся тем , что мы
ускорить путь к успешному
путем прямого указания на то, что
имеет значение в статье, и мы можем
также предоставляют более актуальные предложения
потому что они намного точнее, чем
конкурирующих технологий, а затем мы
так что наша небольшая компания
также предоставляет функции конечного пользователя, поскольку
мы считаем, что это понимание
используемых алгоритмов и как они
на самом деле, как разные алгоритмы будут
отдавать предпочтение различным вещам и
на самом деле важно для функции
вы пытаетесь построить, как
вы собираетесь оценивать их, и это
на самом деле очень зависит от типа
прецеденты , которые мы пытались решить
и для наших клиентов — издатели
они действительно счастливы , что могут
вне функции через много
типы контекстного контента, даже в
биомедицинские, например, исследования генов или
наркомании существует много
структурированной документации много
Онтология Zahl названия генов по крайней мере ,
обнаружены до недавнего времени или
регистрируется в онтологии открытого доступа и
и документация действительно очень хорошая
в этой небольшой области науки, но
везде вне этого много
гораздо хуже, если вы посмотрите на гуманитарные науки и
Джен
ну редко бывает какой-либо официальный
доступна онтология, которая расскажет вам
какие слова важны или какие
все это синоним того, что и так
то, что мы делаем, на самом деле очень важно
сделать это для развития этого типа
услуг или рекомендаций для всех
другие дисциплины, поэтому будущее
как я сказал, что мы
в настоящее время работает над пониманием
отношения между всеми этими функциями
вещей, которые мы извлекаем там, так
много разных способов, которые вы можете сказать
и когда вы говорите о
отношения между двумя вещами есть
равное количество разных способов
может сказать так, что только тот факт, что
сыворотка состоит в основном из воды, может быть
сказал по-разному и
вещь тонкопленочное покрытие золото
наночастицы, над которыми мы сейчас работаем
нано-продукт для наноиндустрии
с партнером, который можно также сказать в
несколько разных способов, но то, что
интересно, конечно, что эти
отношения, когда они складываются, мы можем
замените две вещи субъектом и
объект, а затем общий
понимание того, как эти отношения
могут быть описаны и поэтому мы пытаемся
это большая проблема для нас, пытается
нормализовать и уменьшить типы
отношения между вещами и
corpus другой большой перспективный
особенность заключается в предоставлении наших услуг
другие компании, которые пытаются решить
проблемы и иметь доступ к неструктурированным
текст, но без возможности его обработки
мы работаем с несколькими большими
компании, чтобы сделать в основном
большие текстовые коллекции, которые можно вычислить так
большая часть того, что мы делаем, может применяться на любых
данный вид большой коллекции текста
и вы можете делать всевозможные на самом деле
интересная аналитика на нем, как только вы
знать, что и что и что такое, и
каковы важные аспекты текста и
то в конечном счете, почему мы хотим идти, это
делать рассуждения в масштабе
это действительно то, что вам нужно, чтобы
усилить научные исследования
эффективно вам нужно уметь
причина в том, как это выглядит
причинная цепь событий здесь и есть
это спорный факт, что все говорят
что так и есть , или
вещи, которые могут быть длинными цепями
конечно же, не замечать, что
может быть действительно только раскрыто массивными
аналитики, поэтому я думаю, что конечная
цена есть лекарство от рака, поэтому так
Я думаю, у нас есть небольшая команда, мы
фактически расположен в почти во втором
Датский город был 18 человек, я думаю
теперь, и все они работали в
крупные крупные международные компании
и в основном выбрали для работы
с нами четыре жалкие зарплаты и живые
в пригороде, потому что мы так взволнованы
о обещании помочь науке
у нас нет датских клиентов, мы все работаем
с международными издателями так и да
мы нанимаем и поэтому не стесняемся применять
где мы сейчас развиваемся, и
любить получать заявки на вас
ребята, поэтому я думаю, что завершает мою речь
и я бы хотел ответить на вопросы.
тон, который я оставил , если
у вас есть какие-то
многие вопросы, которые вы были exid, я
они задают вопросы таким образом
первый — анализ потока
используется для анализа поведенческих данных, таких как
гиперссылки между статьями, и вы
используйте искру для этого да, я думаю, мы делаем тебя
искра, поэтому я признаюсь, хотя я
вырос с компьютером и закодированной лягушкой
демо на моем c64 и в моих родителях
спальня в 80-х, я на самом деле не
работа в качестве разработчика в нашей компании, я
один из основателей, и я продаю
так что я могу ответить
точно мы
Посмотрите данные по клику, но в основном
это не ограничивается профилем
построение не рода анализа сеанса
потому что мы делаем много шума
и люди отвлекаются, поэтому, если у вас есть
последующие клики через корпус
действительно просто атрибуты, которые говорят вам
что-то о том, что пользователи
заинтересованы не в том, чтобы
вещи, на которые они нажимают
потому что люди отвлекаются так да
мы используем клики, но не потоки и
если вы используете, если вы держите приманку не
эта минутная манипуляция все в порядке, мы
на самом деле просили сделать это, так что да
поэтому я думаю, что там ты всегда
когда вы работаете с большими
корпорации у вас разные слои
управления, и у них есть это
различный вид производительности
индикаторов и людей, которые работают
в передней части хотели бы видеть
используемой функции, поэтому вам необходимо оптимизировать
данные для функции, которая будет использоваться. Я думаю
это в приложении, я думаю, по причине, по которой я
все еще может заснуть ночью, так это то, что я
думаю, что мы делаем
превосходящий традиционный вид кода
статистики загрузки, которые используются в
наука, как правило, вещи, которые получают
рекомендуется для научных издателей
это то, что другие люди
загрузите его в тот же сеанс, и я думаю
одна из самых больших проблем с этим
просто сделать небольшую утечку здесь
что, когда вы смотрите только на поведенческие
данных, что у вас нет абсолютно никакого способа
рекомендуя новую статью, которая пришла
вчера, потому что у вас нет
поведенческие данные, прикрепленные к нему, и
то, что мы называем Берегом нашей проблемой
если вы не можете определить, что это
статья очень похожа на другую
статья, в которой есть поведенческие данные, которые вы можете
на самом деле не сделать последнее
рекомендации до несчастного случая
наткнуться на него, и вы знаете, кто
на самом деле что-то с этим сделал, поэтому я
подумайте, что мы здесь делаем, очевидно, это
Джекил и Гайд, тогда лучшие
Решение всегда является комбинация
два фактора
как вы делаете правила для классификации
слова или фразы , которые очень
специфичный для домена
разных областях исследований, так что
на самом деле очень мало фраз, которые
точно похоже, у меня очень
разные значения, но у меня есть шеф-повар
синтаксис очень похож по доменам
и большая часть этой проблемы у нас на самом деле
вид навигации, ориентированный на
более длинные фразы и отфильтровывая это
это голова, которая имеет двойственность
вы действительно увидите, что мы стараемся не
упомянуть о том, что, когда упоминается отдельно
может означать разные вещи, чем мы добавляем
дополнительный токен перед ним часто
раз он становится гораздо менее двусмысленным и
мы тогда предпочитаем, чтобы один и тот
просто зола и алгоритмическое решение
не то, что мы жестко кодируем, но мы
на самом деле посмотрите на те, которые имеют
двусмысленность и попытаться выбрать более длинные фразы
которые являются супер-наборами, которые включали вас
делать какие-либо персонализации, мы не делаем
есть продукт для персонализации
потому что это не большой горячий картофель
в науке люди действительно боятся
отслеживаются, потому что они думают, что они
имеют лекарство от рака, и они не
хотите, чтобы история поиска была полной
не идти и для большинства клиентов, которые
мы работаем, поэтому у нас нет
продукт, но мы считаем, что это невероятно
интересно, и мы бы хотели это сделать, но
у нас нет партнера, чтобы сделать это с
и, вероятно, это будет за пределами
науки и каков масштаб данных
используется в вашей обработке, сколько состояний
были слова для обучения вашей модели так, чтобы
это еще одно из первых двух
лет нашего стартапа мы пытаемся
построить школьного ученого Google
мы хотели построить
место назначения, на котором могут появиться пользователи
поиск в полнотекстовых статьях не видит
полнотекстовые статьи, но мы хотели бы
делает их для издателей, а затем связывает их
из
реальная константа, и мы говорили со многими
различных научных издателей, и они
все сказали, что это блестящая идея и
у них было так много встреч с нами для
два года, и они сказали, что здесь
другой тестовый образец, который вы можете иметь
наш контент, и они сказали, и как только мы
готовый к работе, у вас будет этот жесткий диск
с тонны статей, и это не будет
проблема будет счастлива, и тогда
после двух лет и только несколько тысяч
статьи от каждого издателя и тонны
встреч, на которых они спрашивали о наших
технологии, глубины и деталей мы пошли
и однажды ночью я в Лондоне.
помните и один из менеджеров продуктов
или это было на самом деле уровень V В.П. в одном
из тех пиломатериалов публикует пиво
сказал, что знаешь, это никогда не произойдет
они просто держат вас близко, потому что
они хотят знать , какого рода
технологии, которую вы разрабатываете, и я думаю
через несколько месяцев после этого мы
другой бизнес-план, в котором мы
обеспечить нашу ценность вместо слишком маленьких
открыт доступ материал мы решили работать
в рамках издателей
и быть их друзьями и так теперь, что
мы предоставляем наши услуги
которые в основном сосредоточены на использовании
данные одного издателя для выполнения услуг
для этих клиентов издателей и так далее
клиентов, у более крупных издателей 10
15 миллионов статей — некоторые из
агрегаторы имеют больше, но большую часть
наши клиенты имеют менее 10 миллионов
документы, поэтому каждый документ будет я
не знаю нескольких сотен К в простой
лыжи, что это не сумасшедшие объемы данных
это несколько терабайт для большего
издатель, так как jonathan schwartz нашел
его можно легко сбрасывать в любом месте
в Интернете, но все будут
подал в суд в порядке
было бы разумно печатать
статья нормализует его и переиздает
вместе с оригиналом и сделал ли вы
есть инструмент для этого, поэтому мы не будем
не может предоставить доступ к полному тексту
мы работаем с издателями, и они
это очень жестко контролируемый бизнес
они являются их основным бизнес-активом в
до тех пор, пока открытый доступ не станет более
доминирующей является концепция, которой они владеют
и контролировать так, чтобы мы действительно не могли
многое с ним, кроме закрытых дверей
у нас было, когда мы работали с elsevier last
год, как формы, которые мы должны были заполнить
для обеспечения безопасности были сумасшедшие I
подумайте сто сорок семь страниц
вкладки на листе Excel со сто
вопросов в каждом , так что было просто
залоговое удержание, и они являются вопросами опроса
прежде чем они отправят человека, так что да
они действительно действительно сумасшедшие
безопасность Я использую дамп архитектуры
и вы можете говорить о том, что я не
Я знаком с лямбда-зоной
как лямбда-лямбда-коэффициенты, но нет
нет, возможно, возможно, мы знаем, что хорошо
что самое интересное
в ваших данных о раке
мы еще не нашли, что и я
думаю, мы бы опубликовали его так
мы являемся поставщиком услуг, поэтому мы работаем с
что отрасль назвала предметом
экспертов или МСП, и поэтому у нас есть модели
что мы подтверждаем качество того, что мы
делать, а затем коэффициенты ошибок и т. д., они
все автоматизированные тесты и затем, конечно ,
мы запускаем его путем выбора
настоящих ученых, которые могут
затем узнайте контент, который у нас есть.
и может определить, есть ли
где-то слово, которое мы оставили
это было важно, но мы не можем
оценивать себя
поэтому мы знаем, что научный
издатели, мы работаем с редакторами
там говорят, что у нас есть лучшие
алгоритмов экстракции, которые создают
самые лучшие и самые полезные фразы и результаты
так что это то, что мы идем на самом деле
не знаю, что используется в порядке
что о статьях, опубликованных в
публичное достояние, опубликованное на открытом
платформы, которые я индексирую и представляю
статьи об этом и
источники да, мы работаем с парой
издателей открытого доступа и извините
об этом и, следовательно, модель открытого доступа
имеет своего рода превращение публикации наизнанку
где традиционно традиционно
издатели фактически публикуют вашу вещь
бесплатно, пока вы подписываете
Авторское право на открытый доступ , вы должны
платить за процесс экспертной оценки
и публикация, конечно, что стоимость
спустилось много лет назад
но вы по-прежнему платите около 2000 евро за
публиковать статью и подобные публикации
небольшой демпфер на рост открытых
но мы работаем с некоторыми из
поставщики открытого доступа, и у нас есть
эта идея, когда мы начали нашу компанию
что мы просто собираем все открытые
источник, и это очень хорошо, если вы
хочу попробовать, потому что единственные люди, которые
преуспели в чем-то смутно
напоминающее , что только агрегирование
метаданных, потому что получается, что
люди публикуют свои статьи в
он в gazillion различных форматах на
gazillion различных сайтов, где
иногда скучная загрузка
какой-то я не захват робота и
на самом деле очень сложно попасть на
содержание это самая большая ошибка, что
сообщество открытого доступа сделал это
не соглашаясь на какой-либо стандарт представления
что позволяет этим данным идти туда текст
быть добытым, и я просто не понимаю, почему нет
один пришел и сказал, что так вы
сделайте это, это формат дает нам струйку
xml-файл прямо здесь, на ftp-сервере
свалить его туда и позволить сообществу
делать все остальное, но это не было сделано
это не
это не задача для стартапов, это
невероятно трудоемкий
тысячи различных представлений
конфискации и PDF-файлы, я имею в виду, вы можете подумать
PDF — хороший формат, но он просто превращается
что иногда визуализатор будет
замените порядок предложений
и невозможно определить, какие
предложение завершено здесь или вы
не хочу знать так, поэтому мы должны
кто-то другой позаботится об этом и
то мы можем сделать открытый доступ с открытым исходным кодом
Через несколько лет у вас есть какое — то
Лучшая практика для запуска рекламы
процесс, когда различное глубокое обучение
методы могут быть применены Я не уверен, что я
понять вопрос, но у нас есть
так что это ключевое значение добавить, и я
извините, я не могу поделиться исходным кодом
мы пытаемся построить бизнес, если
вы хотите работать с ним, вы должны прийти
для нас у нас есть как трубопровод, который
мы строим это и это
итеративный материал, который мы собираем,
узнал в другом месте, и мы в основном
мы работаем внутри команды
мы пишем документы, которые мы приводим
друг другу, и это замечательный набор
пожалуйста, примите к сведению, что это применимо
хорошо для компьютерных наук о да
архив мы проиндексировали архив один раз
но мы не настроили его для повторной индексации
и я думаю, что мы должны это съесть
свою собачью пищу, чтобы мы могли получить
это снова и снова, когда мы получаем
рядом с ним мы имеем эти другие
рабочие места, которые платят деньги, которые мы должны делать
сначала вы пробовали нашу технологическую работу
для языков, отличных от английского, нет, мы
не нашли желающих заплатить за
это все же большая часть того, что мы делаем, может быть
переносится на другие языки и
не я свободно говорю по-немецки, но я думаю
возможно, существуют некоторые правила, которые
должен быть
для их грамматики, но нет ничего
в основном предотвращая его
портированы на другие языки, которые у нас есть
было предложено сделать китайский для IP-анализа
патентного анализа, но инструменты, которые
все остальные используют в основном некоторые
вид автоматического перевода, а затем
с последующим применением текстовой аналитики,
вероятно, уступает, но делает больше
смысл с точки зрения затрат
к сожалению, я думаю, что это очень много
вопросов спасибо за это и давайте
скажите спасибо, чтобы поблагодарить вас
Please follow and like us:

Be First to Comment

Добавить комментарий