Press "Enter" to skip to content

GOTO 2015 • Scalable Data Science and Deep Learning with H2O • Arno Candel


так что да, я провел много лет в физике
в высокопроизводительных вычислениях для
физики частиц на крупнейших
суперкомпьютеры мира в slac
совместная работа, которая была получена от
фон, а затем я переключился на
стартапы по обучению машинам Я был
делая это в течение последних трех с половиной лет
лет или около того в прошлом году я был назначен
и назвал большие данные все-звездой на
Журнал Fortune, так что это было приятно
удивление, и вы можете следить за мной, нет
созерцайте здесь, и если кто-то будет
желаю сфотографировать и чирикать
мне это очень понравится
поэтому вчера мы собираемся ввести
h2o, а затем поговорить о глубоком обучении
немного подробнее, а затем
будет много живых демок столько, сколько
время позволяет мне пройти через все эти
разные вещи, поэтому мы рассмотрим
разные наборы данных отличаются от api и
я буду уверен, что у вас есть хорошая
впечатление о том, что h2o может сделать для вас
и как это будет выглядеть и что вы
определенно получить представление о том, что мы можем сделать
вот так h2o — это машина памяти
учебная платформа написана на Java
это открытый источник, который он распространяет через
ваш кластер отправляет код вокруг
а не данные, чтобы ваши данные могли оставаться на
кластера, и у вас есть большие данные
установить правильно, а затем вы хотите построить
модели во всем наборе данных, которые вы не используете
хотите понизить выборку и потерять точность
Таким образом, но обычно проблема заключается в том, что
инструменты не позволяют масштабировать
все большие наборы данных, особенно для
моделирование моделей машин
не просто говорить о подведении итогов
для вычисления агрегатов, которые вы говорите
о сложных моделях, таких как градиент
ускорительных машин или нейронных сетей и
h2 позволяет вам это сделать, и вы получаете
масштабируемость и точность
этот большой набор данных в масштабе и как я
упоминалось ранее, что у нас много AP
что вы увидите сегодня, мы также
имеет скоринг двигатель , который является своеобразным
ключевой момент продукта — около 35
люди прямо сейчас у нас был наш первый h-2a
мировая конференция в прошлом году осенью
и наиболее
огромный успех и сири сатинируют здесь
Я был генеральным директором, он у него отличный
культура мышления и культуры
все ему, поэтому ему нравится встречаться
каждую неделю, даже два раза в неделю, чтобы получить
отзывы клиентов и т. д., поэтому мы
очень много управляемое общества даже
хотя мы пишем большую часть кода при этом
так что вы можете видеть здесь рост
машинное обучение действительно имеет тенденцию и
мы считаем, что это следующий SQL и
предсказание — это следующий поиск
не просто прогностическая аналитика есть
также предписывающая аналитика, где вы
пытаясь не просто сказать, что будет
завтра, но вы собираетесь сказать
клиентам, что делать, чтобы они
может повлиять на завтра, чтобы вы могли видеть
рост здесь много-много компаний
теперь используют h2o и почему это хорошо
потому что это распределенная система, построенная
экспертами в доме мы кликаем
щелкните по клику, он наш технический директор, он написал
в основном Java-компилятор jit right large
его части на каждом мобильном телефоне
есть части его кода, которые
выполнялся все время, поэтому он архивировался
все рамки распределены
хранилище ключей памяти на основе
неблокирующая хэш-карта имеет MapReduce
парадигма, построенная на нашей собственной карте
который является мелким зерном и
все угрозы постоянно работают
если вы обрабатываете свои данные и
Конечно, все узлы работают в
параллельно, как вы увидите позже, и мы
также сжимают данные, подобные
припаркуйте формат данных, и вы можете действительно
хранить только данные, которые вам нужны, и это
гораздо дешевле декомпрессировать «на лету»
регистры ЦП затем отправить
числа через провод и один раз, когда вы
у вас есть эта структура, на которой вы можете
алгоритмы записи, которые используют это
MapReduce парадигма, и вы также можете сделать
меньше, чем алгоритм, который вы можете просто сказать
вычислять агрегаты, например, это похоже на
мини-алгоритм, если вы хотите, чтобы вы могли
делать все это, и в конце концов вы
в конечном итоге с моделью, которая делает
предсказание будущего права, которое вы стоите
с машинным обучением, и этот код может
затем экспортируется, тогда я покажу вам, что
через минуту, и, конечно, мы можем сосать
данные из почти любого места и вы
может разговаривать с нашим Python через JSON с
веб-браузер
Я регулярно проверяю статус моей работы
с моего мобильного телефона, например, так
есть куча клиентов, использующих нас
прямо сейчас, которые являются ссылочными
на данный момент есть намного больше, что мы
может говорить в этот момент, но вы будете
о них скоро узнают
делая большие данные прямо сотнями
гигабайт десятков узлов, и они
обрабатывать данные все время, и они
имеют более короткие оборотные моменты, когда они
экономия, экономя миллионы на
развертывание этих моделей, таких как
модель обнаружения мошенничества имеет безопасный
Paypal миллионы в мошенничестве, так что это очень
легко загрузить, вы просто переходите к h dot AI
и вы можете найти кнопку загрузки
скачал его после его загрузки
разархивируйте этот файл, и вы туда
и введите java dejar right that’s it h2o
будет работать на вашей системе.
нет зависимостей, это всего лишь один сингл
файл, который вам нужен, и вы в основном
и вы можете сделать то же самое на
кластер, который вы ожидаете повсеместно
и вы запустите его, что будет медведем
если вы не хотите
сделать голые кости, вы можете сделать Hadoop, вы можете
сделайте пряжу искры, которую вы можете запустить с нашего
и с Python, так что давайте сделаем
Быстрая демонстрация здесь, это glm, поэтому я иду
для кластера здесь этот кластер имеет мою
имя на нем у вас есть выделенный кластер
для этой демонстрации, давайте посмотрим, что это
прошлый стирать этот кластер является восьмым
отметить кластер на ec2, я думаю, 30
гигабайт кучи на машину
и в основном это просто ждет
для меня, чтобы сказать, что делать
что я делал раньше, когда разбираю этот
Набор данных для авиакомпаний Я собираюсь сделать это
снова набор данных авиакомпании есть все
рейсы из 2007 всех путей назад к
девятнадцать восемьдесят семь, и это разбор
это прямо сейчас , и давайте посмотрим на
cpu здесь вы можете видеть, что все
заметки активны прямо сейчас, сосать
данные
синтаксический анализ
в эти приведенные представления
которые теряются, конечно, когда мы
имеют числа, такие как 719 и 120, тогда вы
знайте, что это укладывается в один укус, чтобы вы
сделайте столбец с одним ударом сразу после того, как вы
видеть, что их количество там больше
динамический диапазон и только один укус, тогда
вы принимаете два укуса и так далее
в основном просто хранить то, что вам нужно
хорошо, так что теперь часть этого файла в 35
секунд, давайте посмотрим на файл
есть сводная сводка, которую я
ожидая его от сервера и
сервер теперь возвращает это и говорит здесь
160 миллионов строк вы можете увидеть это
есть 160 миллионов строк 30 столбцов
около 4 гигабайт сжатого пространства вы
см. все эти разные столбцы здесь
у них есть сводная информация о мощности
некоторые из них здесь категоричны, поэтому в
эффект составляет около 700 или диктаторов в этом
набор данных, и мы пытаемся предсказать
независимо от того, задерживается ли их самолет или нет
основанный на его исходном происхождении отправления и
аэропорт назначения и так далее, поэтому, если я
хотел сделать это, я просто нажмите здесь
построить модель, я скажу обобщенную
линейная модель, которая является быстрой и
здесь выбирается рамка обучения и i
Теперь выбрать несколько столбцов , чтобы использовать я буду
сначала игнорируйте их все, потому что есть
много столбцов, которые я не хочу использовать, и
то я добавлю год месяц в день
неделю в день недели давайте посмотрим, что мы
хотите узнать время отправления, возможно
перевозчик не номер рейса, который
не означает, что, возможно, происхождение и
пункт назначения, а затем все, что нам действительно важно
о том, поздно или не так
это будет моим ответом все остальное
вам не нужно, потому что это даст
ответьте правильно, поэтому его отъезд
последнее — это то, что я собираюсь попытаться
предсказывать, и это биномиальная проблема, поэтому
да или нет, это ответ, и теперь я просто
нужно нажать «идти», и это
как мы, как мы говорим, и я могу пойти
счетчик воды, чтобы увидеть использование процессора и
вы можете видеть, что все узлы заняты
вычисляя эту модель прямо сейчас
и через несколько секунд это будет сделано вам
видеть объективное значение не меняется
больше, так что это делается за 19 секунд
и я могу посмотреть на модель, и я могу
см., что у нас есть auc 9.5, это
чуть больше пяти пунктов
не просто случайный, мы имеем переменную
здесь мы видим, что некоторые
авиакомпании, такие как Eastern Airlines, являются
отрицательная корреляция с ответом
это означает, что это редко, если вы принимаете
этот перевозчик вы не собираетесь
отсрочено, потому что у него не было
график был всегда вовремя
например, так что это похоже на
один бит, который выходит из этой модели
Другое дело , что Чикаго и
Атланта часто задерживается, когда вы начинаете
там, где начинается ваше путешествие
там, как вы знаете, или, например, San
Франциско, если вы хотите лететь в Сан
Франциско есть много людей, которые
хочу сделать это , поэтому он также
часто задерживается и, как я упоминал ранее
точность здесь сглаживается после
сначала несколько итераций, чтобы модель могла
были сделаны еще быстрее, если вы
глядя, например, на показатели
вы можете видеть, что есть средний квадрат
ошибка , сообщаемая отчет квадрат значения г
на всех этих данных
пункта 65 и т. д., и есть даже
POJO, что мы можем смотреть на вас, знаете, что
POJO — простой старый объект Java, это
в основном код Java, который является скорингом
код, который вы можете взять в производство
что фактически оценивает ваши рейсы в
в реальном времени, и вы могли бы сказать, хорошо, если
вы эта авиакомпания, и если вы находитесь в
это время суток, тогда вы собираетесь
иметь эту вероятность для задержки или
нет, и это оптимальный порог
вычисляется по кривой ROC, что кривая
что вы видели раньше, что говорит вам
где лучше всего выбрать
режим работы, чтобы сказать, что позже
основанные на падениях и позитивах и
истинными позитивами и т. д., что вы
балансируя, так что давайте оставим данные
наука, все это запечено для вас
получить ответ сразу, так что это было
160 миллионов строк, и мы просто сделали это
жизнь
так как вы видели код подсчета очков
есть еще несколько моделей, которые вы можете
встраивать в пользовательский API потока степень
что вы видели раньше, есть помощь
на правой стороне, чтобы принести
это обратно помогает мне спуститься и
Я вижу здесь пакеты, поэтому есть куча
примеров пакетов, которые поставляются вместе с ним, если
Я нажимаю на это здесь, я сделаю это
на самом деле на моем ноутбуке я покажу вам
как запустить это на ноутбуке, чтобы я просто
загрузили пакет из
веб-сайт, и он содержит только два файла
один представляет собой r-пакет, а один —
фактический файл java jar, который я собираюсь начать
это на моем ноутбуке, и я собираюсь проверить
локальный браузер браузера в порту пять четыре
три два, которые являются нашим портом по умолчанию
и теперь я подключен к JVM JAVA
что я только что начал правильно, и я могу спросить
это немного слишком велико, теперь давайте
сделайте это меньше здесь, мы пойдем, я могу посмотреть на
статус кластера еще одно примечание
сгруппированы, я дал ему 8 гигов кучи вас
может видеть это, и все готово пойти так
теперь я собираюсь запустить этот поток
из этого примера упакуйте этот миллион
поток песен Я собираюсь загрузить этот
ноутбук, и вы можете видеть, что это
миллионная дробная демо-версия
у нас в основном есть набор данных с 500 000
наблюдений 90 числовых столбцов и
мы собираемся разбить это и сохранить
следующие три колодца, которые уже сделали вас
эти файлы готовы для вас, так что теперь мы
просто нужно разбирать их здесь, и я
поместите их уже на свой ноутбук, чтобы я мог
просто скачайте по импорту в h2o
кластер, я возьму ненужную переадресацию
потому что это быстрее, поэтому этот файл
составляет несколько сотен мегабайт, это делается в
три секунды, и здесь
test set Я также собираюсь разобрать этот
и вы можете видеть, что вы можете даже
укажите типы столбцов, если хотите
превратить число в перечисление для
классификация вы можете сделать это здесь
явно , если вы не счастливы с
поведение по умолчанию анализатора, но
которые очень надежны и могут
обычно обращайтесь так, если у вас есть
Отсутствуют значения, если у вас есть все виды
категорические уродливые струнные вещи, которые
неправильно, мы справимся с этим, это очень надежный
это действительно сделано для корпоративного уровня
наборы данных, это будет
грязные данные и просто плюнуть что-то
это обычно довольно хорошо, так что теперь
у нас есть эти наборы данных, и я увижу, но
что еще мы имеем здесь, поэтому позвольте мне вернуться
здесь дайте свой вид вы можете нажать на
с правой стороны, и вы можете видеть все
эти ячейки, которые я предварительно заполнил здесь
и один из них говорит, что создает случайную
лес однажды построил градиент
ускоряющая машина говорит, что строит линейный
модель логистической регрессии, и один говорит
постройте модель глубокого обучения, и я
может просто сказать, хорошо, давай построим один
допустим, давайте перейдем к ячейке GBM
и скажем, исполните эту ячейку, теперь это
построение ускорителя градиента на
этот набор данных вы можете увидеть прогресс
бар здесь и фиалки, строящие его, я могу
скажите, эй, как ты выглядишь сейчас, позволь мне
Посмотрите, как вы это делаете прямо сейчас.
уже давая мне забить историю
где ошибка упала,
уже на кривой OC кривая ROC с
AOC чего-то вроде седьмой точки
Я бы надеялся, что да семь очков, вы видите
уже через несколько секунд
довольно хорошо для этого набора данных, если я это сделаю
снова уже здесь ошибка
призрак продолжает падать, и вы можете продолжать
глядя на эту модель
значения, для которых переменные
больше всего в реальном времени, и я
можно снова взглянуть на Поджио
время это древовидная модель, а не логистическая
регрессионной модели, чтобы вы ожидали
некоторые решения в этой древовидной структуре, если
Я иду вниз, есть все эти классы, которые
все это похоже на Java-код. Я думаю, что дерево
должен быть где-нибудь, позвольте мне видеть, что я могу
необходимо обновить эту модель
ой здесь мы идем , так это все
леса здесь вы видите, что есть много
лесов, которые забиваются и теперь
нам просто нужно найти эту функцию
где-то там, и здесь
поэтому здесь вы можете видеть, что это
логика дерева решений правильно, если ваши данные
составляет менее 4000 в этой колонке и
меньше этого бесконечного, а затем в
конец вашего предсказания будет таким и так
иначе в противном случае это число будет таким
в основном это скоринговый код
эта модель, которую вы можете
производство в шторме или любой другой API
что вы хотите использовать свои собственные в основном
это просто код Java без каких-либо
зависимости и вы можете построить то же самое
с глубоким учением, вы можете
построить глубокую обучающую модель на том же
данных одновременно, а другой
вы строите, вы сможете
случайной лесной модели здесь также на
в то же время или с glm, и все это на моем
ноутбук прямо сейчас, поэтому я строю
разные модели одновременно и я
можете спросить, каков статус их я
можно просто пойти прямо здесь, в
наброски и нажмите, чтобы дать мой глубокий
учебная модель о, это уже сделано
Давайте посмотрим , насколько хорошо мы делаем здесь также
хорошее преимущество auc и особенности
и история подсчета и показатели
и вы даже можете получить список оптимальных
такие показатели, как лучшая позиция i
может получить то, что лучше всего я могу
получить, а затем на каком пороге, чтобы это
все ориентированы на ученых-данных
понимание того , что происходит все в порядке
так мягкий мой ноутбук взбалтывает некоторые
больше моделей вы можете продолжить здесь и
более подробно расскажите о глубоком обучении
так как вы все знаете
в основном только связанные нейроны справа
и это похоже на логистическую регрессию
за исключением того, что есть больше умножений
собираешься на вас ваши полнометражные разы в
вес вы получаете номер, а затем добавляете
это, и вы делаете это для всех этих
соединения вашего каждое соединение представляет собой
произведение времени ожидания ввода
дает вам некоторый результат, а затем вы применяете
нелинейная функция, например, в NH
что-то похоже на ступенчатую функцию
переместите функцию шага, и вы сделаете это снова
и снова и снова, и в конце вы
имеют иерархию нелинейных
преобразования, которые
сложных нелинейностей в вашей модели, поэтому
вы можете описать действительно странные вещи, которые
вы в противном случае не могли бы
скажем, линейная модель или простая случайная
леса, которые не настолько глубоки, чтобы
составляют все эти нелинейности между
все эти функции, так что это в основном
машины, в которой
нелинейности в вашем наборе данных, и мы
сделайте это снова распределенным способом
потому что мы используем MapReduce, мы
делать это снова на всех потоках
как вы видели ранее для glm и
все было глубоко учить Грин
также зеленый цвет, как известно, зеленый
обычно сжигают весь обычай, и я
запуск моих моделей, и все остальные
конечно, конечно,
Планировщик Linux, который заботится об этом
но все же некоторые утверждают, что это не
обязательно честно, если у меня будет какая-то большая
модель, поэтому я не делал этого в последнее время и
вот почему я использую эти простые два
теперь кластеры или, может быть, мой ноутбук от
время от времени, но в любом случае вы можете увидеть здесь
у нас есть много мелких деталей здания
правильно он работает автоматически
категориальные данные автоматически
стандартизирует ваши данные
не нужно беспокоиться о том, что оно
автоматически препятствует отсутствующим значениям
автоматически регулирует
если вы укажете опцию, которую она выполняет
проверка направленной нагрузки, балансировка всего
вам просто нужно сказать, иди, и все.
это должно быть как супер легко для любого
просто запустить его, и если вы хотите знать
как это работает в деталях архитектуры
здесь это в основном просто распространение
набор данных для него сначала прямо на
весь кластер предположим, что у вас есть
терабайт данных и 10 заметок на каждом узле
получит 100 гигабайт разных данных
и тогда ты говоришь хорошо, я сделаю
первоначальная модель глубокого обучения,
совокупность весов и значений смещения
просто цифры, и я вложу это в некоторые
место в магазине, а затем я распространяю
что всем заметкам все мои 10 заметок
получить копию той же модели, а затем i
скажем, поезд по вашим местным данным, а затем все
модели будут обучены их
локальные данные с многопоточными данными, поэтому
некоторые условия гонки здесь, что делает
это не воспроизводимое
но в итоге у вас будет n моделей в
этот случай для или в вашем кластере, который
Я только что упомянул 10, у вас будет 10
такие модели, которые я построил на
часть этих сотен гигабайт, что вы
вам не нужно обрабатывать все
сотни гигабайт, вы можете просто попробовать
некоторые из них правильно, а затем, когда вы
сделано с тем, что вы уменьшаете его в основном
автоматически вернется в
одна модель и одна модель — одна
что вы смотрите в своем браузере из
наш от Python, а затем вы делаете это
снова и каждый проход — это часть
данные, которые вы проходите, или
все данные или больше, чем все ваши
данных, которые вы можете просто продолжать выполнять без
не общаясь вы можете сказать друг не в
просто бегите в течение шести недель, а затем
но по умолчанию это делается в
способ, которым вы тратите около двух процентов
вашего времени на
кластер и девяносто восемь процентов
вычислений, и все это автоматически
сделать так , что вам не нужно беспокоиться о
все, что вы только говорите, идет, и это будет
в основном обрабатывают данные параллельно
и сделать хорошую модель, и это усреднение
моделей, эта схема работает там
об этом, но я также
новая схема, называемая консенсусом a dmm
где у вас в основном есть штраф, как далеко
вы отходите от среднего, но вы держите
ваша локальная модель и сохраняет
все вроде идут самостоятельно
путь в оптимизации земли без
усредняя все время, которое вы только знаете
что вы дрейфуете слишком далеко, чтобы вы
немного потянул назад, но у вас все еще есть
ваша собственная модель, так что это будет
в ближайшее время вы можете посмотреть
вперед к уже как это работает
довольно хорошо , так это среди права
две цифры от 0 до 9 рукописных цифр 784
оттенки серого, вам нужно знать, какие
один из них находится прямо из пикселя в оттенках серого
ценности и в с парой линий
здесь, в нашем, вы можете получить мировой класс
не на самом деле фактический мировой рекорд не один
опубликовал в этом
без использования сверточных слоев или
любые другие искажения
60 000 учебных образцов нет
искажений нет сверток, и вы можете
см. здесь все другие реализации
Джефф Хинтон и Microsoft 83
конечно, вы можете
скажем, последняя цифра не совсем
статистически
потому что у вас есть только десять
тысяч, чтобы проверить заданные значения, но все же
хорошо туда попасть, так что давайте
сделайте небольшую демонстрацию здесь, это нормально
я покажу вам, как мы можем
обнаруживают уродливые цифры в этой Эмили
набор данных на моем ноутбуке через несколько секунд
поэтому у меня есть только этот экземпляр и
бегу отсюда, так что я собираюсь
входите в наш, у нас есть наши подразделения
это работает каждый день прямо каждый раз, когда мы
совершить что-то такое
, чтобы вы могли определенно проверить эти
с вашей веб-страницы github прямо сейчас
если вы хотите, но все же это говорит
построить модель автоматического кодировщика, которая
узнав, что нормально, поэтому он подключается к
мой кластер прямо сейчас узнает, что
нормальный, что является нормальной цифрой без
зная, но они сегодня это говорят
просмотрите все данные и узнайте, что
нормальный и как он это делает
берет 784 пикселя, они сжимают их
в этом случае 50 нейронов 50 номеров
и затем пытается вернуть его в 784
поэтому он изучает функцию идентификации
этого набора данных сжатым способом
так что если вы можете как-то представить
данные с этими 50 номерами и вы
знайте, как соединяются и
то эти 50 чисел они означают
что-то, что нужно для
допустим, эти 10 цифр
это примерно пять цифр четыре цифры
и этих пяти номеров достаточно, чтобы сказать
есть край здесь, как круглый предмет
здесь как дыра здесь что-то вроде этого
как функции и с этими 50
Числа в середине и, конечно,
подключения, которые составляют
реконструкции и в основном
кодирование и декодирование теперь можно
скажите, что нормально или нет, потому что сейчас
Я возьму тестовый комплект, я его отпустил
через эту сеть, и я вижу, что
выходит из другой стороны, если это
не похоже на исходный вход
то это не соответствовало моему видению того, что
это должно выглядеть правильно, поэтому я иду
чтобы тестовый набор прошел через это
Сначала мне нужно подготовить модель, чтобы
сейчас он строит эту модель на моем
ноутбук 50 скрытых нейронов
10h функция активации и автоматический датчик
устанавливается истина , и я имел пару
дополнительные опции, но это просто сказать
не отбрасывайте ни один из постоянных столбцов
на всех, как ноль, потому что я хочу построить его
в конце концов, так что теперь давайте посмотрим на
outlier гнезда каждой точки мы просто
забил набор тестов и вычислил
ошибка восстановления, так как
другой результат от дохода
насколько плохо мое отображение идентичности, что я
узнал для контрольных точек и для
те моменты, которые кажутся уродливыми, они
не соответствует нормам в
право на обучение , это интуитивно понятный
все в порядке, так что теперь давайте построим
которые соответствуют лучшим топ-25, что
реконструкции, и теперь давайте посмотрим на
в действительности одни и те же вещи
там самое лучшее, поэтому я должен
выглядят одинаково, это те, которые
легче всего научиться представлять в
ваша функция идентификации просто
средние и говорят держать их в основном
теперь давайте посмотрим на те, что посередине
из 10 000, из которых
медианную ошибку восстановления, так что
все еще достаточно хорошо, вы можете сказать, что
они цифры, но они уже не
как можно скорее, и теперь давайте
посмотрим на самые уродливые выбросы, так сказать
в тестовом наборе, так что это все цифры
которые выходят из моей сети, но
они больше не похожи на цифру
так что что-то пошло не так
реконструкция потерпела неудачу в модели
они уродливы, если вы посмотрите на них, они
являются довольно уродливыми, некоторые из них почти
а не цифры больше
верхний правый, например, уродливый и
вы можете сказать, что если вы помните
нижняя линия, как и в тесте оптики
Видение экзамен 6 40 35
у моих слайдов совершенно разные, так что каждый
Я запускаю его, потому что его
нейронные сети с многопоточным я могу
включите его, чтобы быть воспроизводимым, но затем я
должен сказать, что использовать одну угрозу не делают
этого обновления состояния дикой расы свиней
весовой матрицы несколькими угрозами
в то же время просто запустите один
прямо и дайте семя, а затем
просто подождите, пока этот поток не будет выполнен
и тогда он будет воспроизводимым, но в
в этом случае я решил не делать этого, потому что
это быстрее, и результаты
в любом случае, каждый раз, когда вы его запускаете, вы будете
получить что-то подобное, вы не получите
уродливые цифры будут хорошими
так что это показывает вам в основном, что
это прочная вещь и снова здесь
это топография сети, поэтому я могу
также вернитесь в браузер, теперь переходите к
localhost и сказать, что здесь очистка
все, кстати вот это просто побежало
все модели, поэтому, если я скажу, чтобы получить модели I
должны видеть все модели, которые были
построенный таким образом, чтобы последние четыре модели
они были построены на миллионах данных песни
сказал ранее, а верхний — 1i
построенный из нашего автокодера, и вы
можно увидеть реконструкцию автокодера
ошибка начата в нулевом нулевом значении
квадратная ошибка, и теперь она находится в точке нуля
два, так что это
случайный шум для декодеров Отто вам
всегда хочу проверить эту конвергенцию
должен чему-то научиться правильно
сопоставление идентичности, и вы также можете увидеть
здесь состояние нейронных слоев
вещь, которую я показал вам раньше и, конечно же,
вы также можете получить POJO здесь
в этом случае это нейронная сеть, поэтому вы бы
ожидайте немного веса здесь, а некоторые здесь
что это о, вот что это за нейроны
мы идем, я ожидаю, что модель покажет
где-то вижу, что много
объявления, которые вы должны знать
все эти функции 784, так что если это тоже
мало для предварительного просмотра , то мы должны
посмотрим на другую модель, которую у нас есть
вернемся, чтобы получить модели и нажать
другая глубокая модель обучения
ранее на миллионный набор данных и
посмотрите на свое pojo, которое должно быть меньше
потому что было всего 90 предикторов
ладно, пойдем так, ты должен увидеть
что на самом деле
напечатаны в обычном тексте, чтобы вы могли
всегда проверяйте здесь активацию
с числовым чем-то с
категорически, если бы у вас было в этом случае
их нет, и тогда это сэкономит
способствует
они будут делать этот матричный вектор
умножение так ax + yv 1 это
матричное векторное умножение
внутри модели глубокого обучения и
вы можете видеть здесь, мы делаем некоторые частичные
трюки будут быстрее, чтобы в принципе разрешить
CPU, чтобы делать больше дополнений и
умножения в то же время, поэтому все
Это оптимизировано для скорости, и это
так же быстро, как любая реализация c ++ или
ничего, потому что у нас действительно нет GC
проблемы здесь распределяются все массивы
один раз, а затем просто все наладится
так что теперь давайте вернемся к большему
проблемы глубокого обучения и хиггсов бозон
кто видел этот набор данных перед хорошо
отлично, так что это право физики 13
миллиардов долларов самый большой проект когда — либо
научный эксперимент, этот набор данных
10 миллионов строк их событий детекторов
каждое событие детектора имеет 21 номер
выходите, говоря, что это то, что я
измеряется для определенных вещей, а затем
физики придумали еще семь
числа, которые они вычисляют из тех 21
что-то вроде квадратного корня из этого
квадрат минус, что квадрат или что-то
и эти формулы или формулы на самом деле
помощь, и вы можете увидеть это там, если
вы берете только низкоуровневые номера этого
это AUC, который вы получаете, так что точка 5 случайна
и один был бы совершенным, и теперь он идет
примерно на 10 базисных пунктов
почти если вы добавите эти дополнительные функции
поэтому очень важно иметь физиков
вокруг, чтобы рассказать вам, что делать правильно
но ЦЕРН в основном имел эту базовую линию
здесь 81, что было хорошо
для них они использовали градиент
усиленные деревья и нейронные сети с
слой с одним скрытым слоем слоя, поэтому
их базовый уровень составил 81 АУК, и эта статья
появилось последнее лето, говорящее, что мы можем сделать
лучше, чем при глубоком обучении и
они публикуют некоторые цифры , и теперь мы
собираюсь запустить то же самое и посмотреть, что
мы можем это сделать, я возвращаюсь к своим
кластер мой ec2 8 нет кластера, и я скажу
получать рамы
и мне придется установить данные Хикса
уже потому, что я разбираю его раньше вас
можно увидеть здесь 11 миллионов строк и 29
столбцы 2 гигабайта сжаты не
много, чтобы сжать, потому что это все
удваивается, и теперь я собираюсь запустить глубокий
так что я уже сохранил
поток для этого, поэтому этот поток говорит, что
разделил набор данных разделения, я разделил его на
два девяносто процентов и пять пять процентов
поэтому десять миллионов и полмиллиона каждый
взять данные обучения и
данные проверки и рассказать мне, как вы
делать так, как надо, и он строит
трехслойной сети и использует
активация выпрямителя все остальное
по умолчанию, и теперь он работает, поэтому давайте
посмотри на счетчик воды
углубляются обучение происходит над
кластера, и теперь он общается и
теперь он отправляет это обратно, а затем
вычисление снова может быть начальным
фазы, где его глаза сначала
перебалансировка набора данных или что-то
как правило, вы увидите это вверх вниз , так что
давайте подождем следующего сообщения
но вы увидите , что все процессоры
занят обновлением весов стохастическим
градиентный спуск, что означает
укажите, что поезда проходят через сеть
делает предсказание говорит, как неправильно это
и корректирует вес всех весов
которые затронуты, в основном фиксируются
в каждой точке нет мини-партии
или что-нибудь в каждом обновлении точки
всей модели, и это делается всеми
угрозы параллельно, чтобы вы
восемь угроз параллельно изменяют эти
и я читал тебя правильно, я читал тебя
что бы мы ни конкурировали
обычно мы пишем разные веса
есть миллионы вес, чтобы вы не
нужно слишком часто переопределять, но кто-то
иначе читает в то время или что-то
так что вы можете видеть здесь, это в основном занято
если вы хотите знать, что
он точно делает это также может нажать на
профайлер здесь , и он покажет вам
трассировка стека и сортировка трассировки стека
посчитайте, что происходит,
в основном просто общение сделаем
это снова
теперь он будет немного отличаться
о, я вижу, что теперь это говорит о том, что это
в основном без дела, потому что у нас есть восемь
но есть семь заказов и
есть одно для чтения и одно для прав
поэтому мы получили 14 угроз, активно слушающих
для связи здесь f 289 находятся в
назад некоторые из них находятся в
вперед, чтобы вы могли видеть все
эти точные вещи, которые происходят
с любой момент времени для каждой ноты
вы можете перейти к другой ноте и
вы можете видеть такое же поведение, чтобы они
все просто заняты вычислением, поэтому этой моделью
строит, мы можем спросить, насколько это хорошо
помните, что одна базовая линия с
человеческие черты , давайте посмотрим , что мы
здесь, в наборе данных проверки
это уже в 79, это уже избили все
увеличились случайные леса и сортировка
методов и нейронных сетей, которые
они были в ЦЕРНе в течение многих лет, поэтому эти
модели слева, которые имели 75 76
уже избили это глубокое обучение
мы просто побежали, и это даже не было
хорошая модель, она была просто маленькой, как
сотен нейронов каждый слой, так что это
очень силен, и к тому времени, когда мы
на самом деле конец будет более 87
a вы видите, что это сообщение
у них есть 88, они обучили это
недель на графическом процессоре, и, конечно же, они
только этот набор данных и ничего больше для
беспокоиться и это небольшой набор данных
но вы можете видеть силу глубоких
особенно если вы его кормите
больше данных, и вы даете им больше нейронов
он будет тренироваться и учиться всему, что есть
как мозг, который пытается научиться, как
мозг ребенка, это просто всасывает все
информацию и через 40 минут
вы получите 84 AFC, который довольно
внушительное право, это превосходит все остальные
базовые методы даже с человеческим
функций, и это не используется
человеческие функции, которые вам не нужно знать
все, что вы просто берете данные датчика
из вашей машины и сказать, все в порядке
другой вариант использования — глубокое изучение
для выявления преступлений
и это на самом деле Чикаго, который может
признать эту модель, чтобы мои коллеги
Алекс и Макао они написали статью
на самом деле вы можете прочитать здесь данные
нами всего несколько дней назад, и они
используя искру и h2o вместе, чтобы взять
три разных набора данных и повернуть их
в то, что вы можете использовать для
предсказать, что преступление лучше
что привело к аресту или не
данные о преступлениях, которые вы принимаете в ходе переписи
набор данных, чтобы знать что-то о
социально-экономических факторов, и вы принимаете
лучше, потому что лучше может быть
влияние на то, что происходит, и вы ставите
все они вместе в искры сначала вы
проанализируйте их в h2o, потому что мы знаем, что
парсер работает, и это нормально
в нашей демонстрации мы просто сосать все это в
h2o мы отправляем его, чтобы искра в том же
jvm, а затем мы говорим, что вы подключаетесь к SQL и
как только вы закончите, мы снова разделим его на
h2o, а затем мы строим глубокое обучение
модель и, например, модель GBM, я думаю
эти два создаются с помощью демонстрации
скрипт, который доступен снова и снова
h2o и память искры разделяются, это
такой же jvm нет тахионного слоя или
все, что они в принципе способны
прозрачно перейти с одной стороны на
заказ
и продукт, конечно, называется
сверкающая вода, которая была блестящей
Я думаю, все в порядке, так что это
место и github, где вы найдете
этот пример, чтобы вы загружали
сверкающая вода с нашей страницы загрузки
и тогда вы пойдете в это
каталог, заданный для переменных среды
указывая , чтобы зажечь и сказать , сколько
нужных вам узлов, а затем вы начнете
сверкающую оболочку, а затем скопировать пасту
этот код в него, например, если вы
хотите сделать это интерактивно, чтобы вы могли
см. здесь есть несколько импортных товаров
импортировать глубокое обучение в GBM и некоторые
искрой, а потом вы в основном
подключитесь к кластеру h2o, который мы анализируем
таким образом, это просто
определение функции, которое используется
эти другие функции, которые действительно
работу по загрузке данных, а затем вы
может отбросить некоторые столбцы и сделать несколько простых
munging в этом случае здесь мы делаем некоторые
даты для стандартизации
три набора данных должны иметь одну и ту же дату
формат, чтобы мы могли присоединиться к нему позже
и вы в основном просто принимаете эти три
наборов данных они просто малы для демонстрации
но в действительности они, конечно, используют
весь набор данных на кластере, а затем
если у вас есть эти три набора данных в
память как объекты h2o, которые мы только что преобразовали
к схеме, ведущей с этим вызовом здесь, и
теперь стать искрами или болезнями, для которых
вы можете просто позвонить как выбрать
в SQL, а затем некоторые соединения и
еще одно соединение и все, что очень приятно
правильно это хорошо понятный API
люди могут использовать, и h2o не имеет
это на данный момент, но мы работаем над
что в какой-то момент у нас будет больше
возможности управления, но пока вы
может определенно выиграть от всего
искровой экосистемы, чтобы сделать то, что хорошо для
так вот в этом случае, но это мы говорим
вот лучший набор данных о преступлении, который мы
после расщепления я думаю, мы провели мы
верните его в h2o да, это
HTML-вспомогательная функция для разделения и теперь мы
имеют в основном совместный набор данных, который
знает все о социально-экономических
факторы относительно пути
в течение определенного времени в данном месте и
то мы можем построить модель глубокого обучения
так же, как вы это сделаете в Java
Scala очень похоже, что вы не
нужно много портировать, это просто
те же члены, которые вы настраиваете и
то вы говорите,
в основном, и что в конце вы
иметь доступную модель, которую вы можете использовать
делать прогнозы, и это очень просто
и вы можете обязательно следовать
учебники в интересах времени я буду
просто покажите вам сверкающую, которую она начнет
здесь я в принципе могу это сделать на своем
ноутбук , а также в то время как другой является
здесь вы видите искру
запускается, и теперь это расписание
эти три рабочих узла должны появиться один раз
он готов, я могу скопировать вставку некоторого кода в
там и код, который я получил бы от
сайт здесь Чикагская демо-версия это все
на github
поэтому в сверкающей воде я встану
проекта на примерах есть некоторые
скрипты, и поэтому я могу просто взять это
здесь и просто скопируйте все это
oops Я уверен, вы верите мне, что это
все в порядке, так что здесь искра не
готово, и я просто скопирую пасту в
вот он идет , так что, как легко это
сделать искру и h2o вместе, а затем также
как только у вас есть что-то в памяти
в 8-м шоу-кластере правая модель
например, или некоторые наборы данных, которые вы можете
просто попросите поток визуализировать его, вы можете
просто введите этот код JavaScript или
CoffeeScript скорее выражение и сюжет
все, что угодно, против чего угодно и
вы увидите эти интерактивные сюжеты, но
вы можете навести указатель мыши, и он покажет вам
что это такое и так далее, так что это очень круто
вы можете указать, например, уровень ареста
по сравнению с относительным появлением
арест, например, азартные игры всегда
почему это так хорошо, потому что
в противном случае вы бы не знали , что
азартный игрок обманывал или
что-то, поэтому вы в основном должны
оставайся им правильно, иначе ты не знаешь
что происходит, некоторые вещи
необнаруженный, но кража, например
это не всегда арестовано, потому что кто-то
знает, что он был украден без
человека, пойманного таким образом, что у вас есть
быть осторожным во всех этих данных
научный материал, но в принципе может
независимо от того, что вы хотите
хочу, и это довольно эффективно, и мы
у нас есть наш штатный стол в доме, поэтому
Мэтт Доуэлл присоединился к нам недавно, он
написал самую быструю таблицу данных a
в нашем и
используется для финансовых учреждений, которые
любят делать агрегаты много, так что
вы видели на предыдущем слайде скоро
иметь все это в H, чтобы перейти в масштабируемое
способ, которым мы можем быстро присоединяться к агрегатам
и так далее, и то же самое, конечно,
для Python у вас есть ipython
ноутбуков, и есть пример, чтобы сделать
что-то для городской велосипедной компании в
Нью-Йорк, где вы хотите знать, как
вам нужно много велосипедов для таких станций
что у вас не заканчиваются байки, так что давайте
скажем, у вас 10 миллионов строк
исторических данных, и у вас есть несколько лучше
данные, которые вы могли бы себе представить,
эти два, а затем в основном основаны на
место нахождения
вовремя и лучше вы можете предсказать, как
многие велосипеды вам понадобятся, так что если я
знай сегодня, что это будет или завтра
будет лучше, я знаю, что мне нужно
250 велосипедов на этой станции или что-то еще
и скала наш технический директор, кто написал джит
в основном также написал эту науку о данных
пример, чтобы вы могли видеть, что есть
группы сверху от ipython ноутбуков
и показать вам, что это тоже жизнь
невозможно здесь, я делаю это здесь, я наберу
ipiton ноутбук citibike маленький и выше
всплывает мой мой браузер с ipython
Я удалю весь вывод
клеток, поэтому мы не обманываем, и я говорю, иди и
теперь он подключается к кластеру, который
Я начал 30 минут назад, это означает, что я
все еще осталось немного времени
загрузите некоторые данные здесь, мы пойдем и
то давайте посмотрим на данные, описывающие это
вы можете увидеть здесь некоторые средние макс и
так что, как бы это ни было
распределение куска кадра
сколько строк из каждой машины в
этот случай — только одна машина
есть только одна машина, в основном некоторые
статистика , которая говорит вам , как это
распределенные по кластеру данные
виды столбцов у меня есть, что их
средний макс и т. д. все доступные из
от Python, то вы можете сделать группу
вам не нужно знать все это, но
в основном, вы хотите знать, как в
какое время дня или как они
многие велосипеды — сука и т. д.
вы можете видеть, что есть большой
Распределение здесь — это некоторые некоторые
местам нужно всего 9 велосипедов в основном
под велосипедами или даже больше и так далее
правильно, и вы можете делать квантили, которые вы видите
квантиля здесь от одного процента всего
путь до девяноста девяти процентов, а вы
видеть, что есть довольно большие цифры
здесь вы можете сделать новые функции, если
в выходные дни вы можете строить модели так
это интересная часть, у нас есть счет
GBM мы строим случайный лес мы строим
glm, и мы строим модель глубокого обучения
все на тех же данных, которые были объединены
раньше и так теперь, скажем так, сделайте это
так что теперь он строит GBM
весь мой ноутбук, поэтому, если бы я пошел на свой
ноутбук прямо сейчас, я могу сказать, получить модели
и эти модели будут просто волшебными
всплывают, и это глубокое обучение, и теперь
мы можем видеть, насколько хорошо они делают и
вы правильно поняли идею, и теперь мы получаем
92 AAC путем глубокого обучения, но 93 a или
c GBM, но глубокое обучение даже взяло
немного меньше времени, чем GBM, чтобы вы могли
говорят, что оба очень мощные методы
они избили случайные леса и
здесь линейные модели, но, конечно, ничего
бьет линейную модель с точки зрения времени
Оставьте одну секунду, чтобы получить 81, и вы
см. это замечательно, это 50 раз
быстрее и случайный лес
вы верите мне, что я Python работает как
хорошо, как только вы присоединитесь к лучшим данным с
простая команда слияния здесь в
где-то где-то
поднимитесь сюда, потому что тогда вы можете даже
предскажите лучше, что вам нужны велосипеды, не
основанные на правильном праве, имеют смысл, если это
дождей, вам может потребоваться меньше велосипедов, чтобы любой
все, что вам интересно, что делать
с линейными моделями GBM с глубокими
изучение буклетов для этого и
мы в настоящее время переписываем их в
новая версия h2o, которая будет иметь
немного обновленный api и материал для
согласованность в Python Scala JSON
и так далее, так что это будет очень приятно
и переписал все с нуля
но сейчас мы в основном
готовлюсь к релизу, я думаю
на этой неделе на самом деле так и еще! является
что мы в настоящее время номер один на этом
каракальный вызов Марк Лэндри, который просто
присоединился к нам, кто был на
пойдите некоторое время, он был в мире h2o
прошлой осенью он фактически собирается работать
полный рабочий день почти половину своего времени в Kaggle
проблемы с использованием h2o, поэтому мы будем рады
чтобы увидеть, как это проходит через финишную черту
и они расскажут, как мы это сделали или
скорее он поделится тем, как он это сделал
потому что до сих пор значительная часть работы
на следующей неделе в h2o в Маунтин-Вью и
они будут транслироваться в прямом эфире, так что если
вы можете сделать это обязательно, чтобы слушать и
это некоторые примеры других каракальных
Приложения
у нас есть демо-скрипты, которые публикуются
которые доступны и, например, это
один, у меня было несколько других, возможно,
месяц назад или около того я разместил этот пример
Логика оснастки случайных параметров GBM, где
вы в основном просто делаете десять моделей с
случайные параметры и посмотреть, какой из них
лучшее, что иногда полезно
особенно если у вас много измерений
оптимизировать более , и мы не имеем
Пекин оптимизации, но это может
быть более эффективным, чем просто грубый
поиск сетки, потому что машина
получает удачливее больше , чем сказать, чтобы это было
повезло, если вы хотите, поэтому montecarlo
интеграция работает в более высоких и четырех
размеры то же самое верно с
поиск гиперпараметров, поэтому не стесняйтесь
от этих случайных подходов
они очень мощные , так что это
outlook много материала для данных
науки, теперь, когда они
машины, которые могут масштабироваться до больших
клиенты набора данных говорят хорошо, если я
мне нужно найти параметры правильно да
автоматическая настройка гибридных параметров
здорово, они скоро это сделают для вас
у вас будут ансамбли, похожие на рамки
что вы можете в GUI и все правильно
определите, что вы хотите объединить
каким образом не менее квадраты для стека
модели разных видов, например, случайные
лес и GBM и так далее все на
наборы затяжки и так далее , то мы хотим
имеют сверточные слои для глубоких
обучение для людей, которые хотят
делать больше изображений, но все
эти вещи находятся в списке дел справа
мы должны расставить приоритеты на основе
потребительский спрос, так что наши
клиенты получают возможность платить клиентам
расскажите нам в основном, что они хотят
и они учтут это
обработка естественного языка высока
там особенно сейчас, когда у вас есть это
мы можем охарактеризовать каждый
string как целое число, а затем обрабатывать
все это быстро, и у нас есть новый метод
называемой обобщенной моделью низкого ранга, которая
выходит прямо из Стэнфорда
могут делать все эти методы pcie SVD
k-означает матричную факторизацию, конечно
все это исправление недостающих значений для
вы основываетесь, как расширение Тейлора
ваш набор данных очень мощный материал может
также могут использоваться для систем командиров и
у нас есть много и много другого нуля
билеты и
материал для работы, поэтому, если вы заинтересованы
присоединяясь к усилиям, пожалуйста, и я
надеюсь, я оставил вас с впечатлением от
что вы можете сделать с h2o и что
современное состояние сейчас находится в машине
изучение больших наборов данных и благодарность
Вашему вниманию
Please follow and like us:

Be First to Comment

Добавить комментарий