Press "Enter" to skip to content

GOTO 2015 • Modern Fraud Prevention using Deep Learning • Phil Winder


привет всем.welcome это современно
предотвращение обнаружения мошенничества с использованием глубоких
узнав, что титул был представлен довольно
давным-давно, поэтому я бы сказал, что
говорить, вероятно, немного больше о машине
обучение в целом теперь у нас было хорошее
поговорить раньше в день, вводя
некоторые из концепций , которые мы время это позади
обучения, и я надеюсь на создание
на них действительно так этот разговор будет
быть немного более техничным, есть
нет математики, которые вы будете рады услышать
есть также нет кода, который я пробовал
вы знаете, объясните сами, используя
диаграммы и рисунки, где бы я мог, но
это гораздо более технический разговор, поэтому
надеюсь, вы можете получить свои зубы
в него у нас есть обычные слайды на
фронт говорит, пожалуйста, оцените и включите
так что да, мое имя Фил, я с помощью вилки
но мы стараемся, чтобы мы
совершенно отличная от датской
mothership yeah Я на самом деле программное обеспечение
инженер в моей профессиональной жизни
машинное обучение — это немного больше
хобби, в которой я сейчас работаю
и раковина для мяса Apache для
elasticsearch да, если бы вы, если бы
хотел бы больше поговорить о любом из
предметы, которые я собираюсь обсудить тогда
посмотри на меня или я увижу некоторые мои
коллеги, перечисленные внизу
Я пропущу рекламные слайды
потому что ты не будешь трахаться, а мы
разделены на три или четыре темы:
окончательная архитектура, которая есть
подробнее о том, как мы будем это делать в
как мы будем это делать в реальном
жизнь это интересно, но это не
на самом деле главное в моей моей речи так
Я собираюсь пройти первые три
разделы, и если у нас есть время, мы могли бы сделать
четвертый, но я, вероятно,
говоря слишком долго, и я, вероятно,
снимите этот раздел, который я собираюсь представить
причины, по которым мы хотим предоставить
некоторые новые инструменты и методы применения
к мошенничеству , чтобы попытаться сделать дело в
бизнес-пользователям, почему вы должны забрать
на некоторые из этих идей и начать
бежать с ними я собираюсь тогда
ввести тему машинного обучения
и у вас, вероятно, было довольно много
опыт, но если у вас нет
что это будет раздел, который действительно
объясняет, что происходит и почему
происходит, и у меня также есть много
демо, а также некоторые из демонстрационных
довольно простой и очень общий характер просто
объясните понятия, но остальная часть
демонстрации все направлены на мошенничество
профилактика направлена ​​на финансирование и
в частности, ипотечные кредиты, так что давайте
взломать так, чтобы сделать любой из
эту работу нам нужно убедить
люди, чтобы дать нам немного денег, и
нет лучшей причины заставить людей дать
нам немного денег, если есть другие деньги в
риск в Великобритании у нас есть Великобритания
конкретные факты здесь, в Великобритании
преступление определяется как я даже не могу читать
этот экран, поэтому я должен прочитать здесь
извините, мошенничество — это акт обмана
предназначенные для личной выгоды или
потеря другой стороне, поэтому все эти
факты и цифры, характерные для Великобритании
но они применимы к довольно
в каждой стране мира
это попытка сделать неправильный вред для
учитывается их финансовая выгода
мошенничество у нас есть мошенничество с ипотекой в Великобритании
перечисленные там в 2014 году 1,2 миллиона
недвижимость, купленная и проданная в Великобритании и
83 в каждых 10 000 из этих заявок
были мошенническими, так что это не совсем 1%
0,8 3%, и когда мы говорим, когда вы говорите
мошенничество в том, что этот аспект это не
обязательно люди, как сильно
мы из маленького масштаба
где кто-то может сказать несколько
информацию об их истории занятости или
сколько они зарабатывают до
огромный огромный вы знаете международное мошенничество
в 2013 году была история двух парней
который изобрел там целую серию
компании, которые изобрели агентов по недвижимости
которые изобрели геодезисты, которые они изобрели
объектов недвижимости и строителей и
они предположительно купили огромный тракт
земли, которую они собирались построить
вы знаете много новых домов на
изобрел или украл личности
другие люди, чтобы вывезти ипотеку на
эти соответствующие дома, так что получается
были десятки, вы знаете десятки
сотни ипотечных заявок
для домов, которые не были
построенный еще
но, как оказалось, они просто взяли это
деньги, выплаченные с первоначальной земли
Первоначальный долг, с которым они работали, принадлежал
землю, а потом просто понравилось, они просто
убежали они полностью изобретены
деревня купила грузы и ипотечные кредиты
после этого, а затем убежал, как можно
что даже так, что общая стоимость, наконец,
пришел к ней около 53 миллионов фунтов
и им удалось сбежать, и они
наконец, попались, но они очень
почти сошел с ним , потому что это было
просто так стыдно
вы знаете, что ипотечная компания была так
смущенно сказать, что это
это почти никогда не попадалось
поэтому он действительно доходит до довольно большого
и это фактически приравнивается к
около 1 млрд фунтов стерлингов на сумму
мошеннических приложений, так что это огромный
огромное количество, но интересно это
на самом деле не худший случай мошенничества в
В Великобритании худшее — это кредит
мошенничество с текущим счетом так традиционно
что бы люди делали, это
украсть чью-либо информацию, открыть
стандартный банковский счет
какой-то из традиционного банка
которые вы можете легко сделать в Великобритании
а затем использовать овердрафт или использовать некоторые
объекты на самом деле вывести некоторые
деньги, а затем, а затем запустить сток
так что на самом деле это
мошенничество в Великобритании, но мы говорим
Немного о закладных сегодня и
наконец, у нас есть реальное розничное мошенничество в Великобритании
большая часть бизнеса в Великобритании
фактически состоящий из малых и средних
крупного предприятия
на самом деле, большие парни не делают
значительная часть рынка, но не
не огромная часть от малых до средних
предприятия оценивают убыток
восемнадцать миллиардов фунтов каждый год
мошеннические транзакции, так что
кто-то выходит в интернет, покупает одежду или
купите еду или купите покупки
на кредитной карте, а затем
возможно, они отменяют кредитную карту как можно скорее
как я делаю заказ, так что ребята на
розничная сторона того , чтобы корабль все
этот материал только для того, чтобы найти, что человек
вы знаете, не существует или
карты украдены или что-то вроде этого и того
составляет огромную сумму, а также другую
причина, по которой предприятия могут захотеть посмотреть
по некоторым из этих
законодательства, поэтому у нас есть один конец
спектр, где есть люди на самом деле
творящие дела
может попытаться защитить себя
но и это законодательство
требования , которые должны быть помещены в
место для того , чтобы выполнить более два в
2017 новый противотанковый отмывание денег
законодательство идет в рамках ЕС , так
это относится ко всем странам ЕС, это
продление срока отмывания денег
правила, которые уже на месте , кроме
основные изменения заключаются в том, что вне сферы действия
лимит снизился до тысячи евро
раньше это было пятнадцать тысяч
евро, и это относится к предприятиям
которые обрабатывают финансовые транзакции
поэтому он применим к банкам, очевидно
финансовые учреждения кредитные агентства
такие вещи, как это также относится к юридическим
услуг в государственных услугах это также
относится к азартным играм
в основном, кто-то, кто занимается
движение денег должно соответствовать
это законодательство и то, что это говорит
это тот, у кого есть транзакция
из более чем тысячи евро они должны
доказать властям, что они
делает их должной осмотрительности , чтобы доказать
что этот человек не является
мошенничать и не использовать деньги
за гнусные средства, такие как терроризм или
что-то вроде этого и, наконец, тогда
они должны представить свои
информации в центральный реестр
информации, и это есть колодец
очевидно, что ранее были проблемы
там, но это немного неясно и как
это фактически будет реализовано
поэтому есть прямые финансовые причины
финансовые причины, по которым вы хотите, могли бы вы
возможно, захочет это сделать также
причины, так как мы это делаем в данный момент
хорошо, если традиционная компания была козой
пойдет в дом программного обеспечения и попросит
некоторые программы, чтобы сделать это, они
вероятно, придумают некоторые
сочетание этих четырех общих идей
у нас есть исходное
так что большинство стран имеют закон
что требует финансовых услуг для
доказать
они разговаривают с настоящим человеком
это то, что это то, что
Я получил одну вещь, которую я получаю
действительно очень раздражает банки
в Великобритании у них эта ужасная техника
использования автоматических телефонных систем для
и докажите, что вы есть тот, кого вы говорите, что вы так
вы проходите целую серию из вас
знайте, что полиция печатает ваш идентификационный номер
введите свой адрес, введите свой
пароль, пожалуйста, сделайте это.
и это занимает около трех с половиной
минут, а затем, как только вы, наконец,
поговорите с реальным человеком, который все вы
хотел сделать в первую очередь
как только вы написали, поговорите с
реальный человек, которого они все равно спрашивают
снова вопросы, и оказывается, что они делают
это потому, что эти предприятия не
совершенно уверен, что автоматизированный метод
действительно является достаточным доказательством того, что личные
методы фактически проходят через
разновидность делает мою голову, а некоторые некоторые
могут быть менее безопасными экземплярами, такими как
страховые агентства и люди, которые
не обязательно
защиты, они могут использовать некоторые
действительно довольно хитроумные методы, как у меня
некоторые случаи, когда люди спрашивали меня
просто для моей даты рождения или просто для моего
почтовый индекс или что-то в этом роде и
они полностью не защищены вашей датой
рождения — это в основном пароль, который вы
были даны при рождении, вы не можете изменить
это исправлено, и вы должны жить с ним
так что это самый худший пароль, который может
когда-либо существовала следующая группа
технологии основаны на правилах, поэтому эти
являются статическими правилами, которые обычно
аналитики говорят, что вы
знать, что транзакция не должна превышать
X или у вас не может быть так много транзакций
в течение определенного периода времени
что-то вроде этого, и они и
они здоровы, и они в порядке, и они
поймать разумное количество мошенничества, это
Как правило, случайные виды и
в основном не очень умный
мошенники будут пытаться и делать что-то
глупо, как это, но также и у
все хорошие парни, как и когда
вы за границей, вы всегда отказываетесь от карт
в первый раз, потому что они думают, что это
мошенничество или вы знаете, что пытаетесь купить
новый автомобиль от парня, и он знает
берет деньги, и вы пытаетесь вытащить 1500
фунтов из банкомата вы не можете
сделайте это, потому что вы знаете, что это против
их статические правила проверки чеков
много агентств с удовольствием принимают ваши
деньги , чтобы предоставить вам ряд
вот и эти числа предполагаются
для представления достоинства или
риск, который этот человек предоставляет вашему
бизнес и есть, конечно , случай
есть аргумент, чтобы использовать их, как
точным они являются другой вопрос
агрегации и мониторинга, так что это
больше реактивного типа решения
где аналитикам будет предоставлено
данные, которые вы знаете, выполняют некоторые
запросить или задать вопрос и попробовать и сделать
что-то основано на том, что так, например
у вас могут быть парни, которые находят
шаблон между вами знает одну наличность
машина, например, отказалась от большой
сумма денег, которую аналитик будет, когда
они проверяют это, поэтому они являются типами
вещей, которые существуют в дикой природе на
момент, но сейчас я собираюсь начать
говорить о механическом обучении и о том, как
мы можем использовать машинное обучение для улучшения
некоторые из этих технологий и
удалите часть смещения или
избыточности или ошибки этих
технологии в порядке, так что
наша отличная презентация сегодня утром
Я забыл первое имя мисс Питт жаль
если вы слышали, что она говорила о том, как мы
Учить II также есть несколько слайдов
но это не так.
Мне нравится представлять мою дочь здесь
ей она 18 месяцев, и она
в настоящее время переживает этот процесс
и это действительно захватывающе
смотрите, как она это делает, потому что есть
есть много параллелей между этим
и между обучением государственного аппарата
алгоритмов на данный момент, и если мы можем
понять, как мы это узнаем на самом деле
помогает нам лучше писать алгоритмы и
это поможет вам понять
алгоритмы, а так это мой
дочь с ней ее мать моя жена
делая некоторый вкусный рис хрустящим хрустящим
шоколадные квадратные вещи и в верхней части
картина там, она делает именно то , что
мама сказала ей, пожалуйста, возьмите рис
krispies и положить их в некоторые корзины
и тогда мы можем съесть их позже, но
где-то вдоль линии она решила
выполнить некоторые тесты
она решила, если я положу это в свою
рот
это будет хорошо или он будет плохим
поэтому она положила его ей в рот, и он
хорошо
поэтому она полностью проигнорировала
инструкции оттуда не потому, что
она узнала, что есть шоколад с
Райс Кришпис была хорошей вещью, так что
очень простой пример того, как дети
узнать и как алгоритмы учатся в
В общем , вы предоставляете им некоторые
тесты с некоторым вводом, а затем они
оценить этот вклад и принять решение о некоторых
исход
это требует времени, но Шои, ей 18 лет
месяцев , и она по — прежнему довольно глупо вы
знаю , что она не может работать , она изо всех сил пытается
приложить предложения вместе, она может, когда
она идет, она падает на ее лицо, она
получает шпатели и пропускает рот и
бьет ей в глаза, и слишком поздно это не
хорошо, поэтому для этого требуется время
это относится к алгоритмам как
хорошо, нам нужно время, чтобы узнать, что у нас есть
эта замечательная игра, которую она любит, которые
индексные карты, и это пример
как она ошибается, я имею в виду, что она
она очень хорошая, я да, она действительно хороша
Мне не кажется, что я
плохой отец, я говорю, что она мусор
и избавиться от него, но нет, она очень хороша
но в некоторых случаях она ошибается
в первом примере слева есть
но она думает, что это дом и
она думает, что это дом, потому что у него есть
четыре стены, и у них есть эти функции
в середине, которые похожи на квадраты
которые выглядят как окна, но что
она еще не узнала, что дом
на самом деле нужен треугольник сверху и
так что это это пример
неправильное использование функций, поэтому есть функции
но она злоупотребляет ими, чтобы прийти к
неправильный вывод второй
называет это цыпленком, потому что она не
вполне понимаю концепцию птицы I
думай, что она изо всех сил пытается
понимать классы вещей, которые она вполне
рад узнать , что эта вещь
безусловно , птица и что вещь
определенно плюшевый, и это
определенно мама, и эта вещь — его
папа пошел туда, но она борется
с вещами, так что это курица, поэтому
так все в порядке, но это всего лишь
Пример классификации Mis , а затем
наконец, мы получили третью картину и
видимо , это тигр, теперь я вышел
когда я показываю эту кошку, она выглядит
у меня и идет, я не уверен, что это такое
а потом я смотрю на Автомобиль
Я не уверен, что это либо идея, я думаю
иногда она идет для кошки иногда
она идет за
иногда я не знаю, что я не знаю
даже знаю, как это выглядит
что-то вроде этого пробегало
кошка, которая была запущена в основном и
это отличный пример просто плохих данных
поэтому в реальной жизни вы получите эти данные
и есть большой метод очистки, который
требуется, чтобы попытаться помешать вам
получить эти плохие данные, потому что вы будете
прийти к неправильному результату, так что
доказать, что это не только ее возраст, я
вы получили пример для всех вас, так что
посмотри эту картинку, и я просто собираюсь
чтобы посмотреть на вас на второй
для всех программистов там это
как человеческий эквивалент, как
переполнение стека, так что вы начинаете делать
вы пытаетесь сосредоточиться на своих глазах
но тогда вы понимаете, что у нее есть глаза
в другом месте, поэтому вы вроде прыгаете
поперек, а затем вы понимаете, что рот
в неправильном месте, чтобы вы снова прыгали и
вы вверх и вниз, вверх и вниз и
если вы долго смотрите на него, вы начинаете
чувствовать себя так больно , но и все
это доказывает, что вы научились
некоторые конкретные вещи со временем у вас есть
вы знаете опыт десятилетия в
скажите, какое лицо должно выглядеть
и когда это не выглядит так,
не совсем знают, как его обрабатывать и
мы можем ошибаться, нет людей
совершенно безошибочный ошибочный извините
они неправильный выбор слов, которые они
полностью ошибочными ИТАК перейти к
тем более технические темы здесь машины
обучение состоит из четырех видов
разные компоненты, они все пытаются
делать несколько разные вещи
первый элемент — размерность
сокращение поэтому , когда мы думаем о данных , которые он
имеет ряд размеров и путем
размеры в основном означают как
единая точка информации, поэтому, если вы
Представьте себе изображение 10 на 10 градаций серого
что имеет сто измерений a
сто пикселей, которые все
представляют собой отдельную часть данных
проблема в том, что с изображениями
это нормально, но для многих других типов данных
это действительно сложно попробовать и визуализировать
что происходит, поэтому вы должны
сжимайте это пространство вниз на два или
трех измерений, чтобы фактически
посмотрим , что происходит , так что это акт
мы имеем
кластеризация, где мы пытаемся назначить
вывод в определенный класс
довольно часто мы знаем, какой класс он должен
принадлежат или, по крайней мере, мы должны знать, как
многие классы там , по крайней мере, так
кластеризация процесс пытается
групповые вещи вместе в отличие
классов у нас есть классификация, которая
связано с кластеризацией, где это
больше задавая вопрос, где именно
я ставлю строку, чтобы сказать, что это класс А
и это класс B и, наконец,
регрессии, которая пытается предсказать
значение на основе их предыдущих входов
мы также получили различные типы
обучение, а также обучение — это ключ
что это действительно позволило
научиться выходить на первый план
что новые методы обучения , которые
были разработаны гораздо больше
мощнее, чем в прошлом
обучение можно разделить на контролируемые
и контролируемое обучение без надзора
обучение — это то, где вы ожидаете
результат, поэтому он помечен так, что вы говорите
что эти исходные данные должны принадлежать
к классу А это должно быть
номер один или этот человек является мошенническим
Затем алгоритм обучает
параметров алгоритма, а затем
настроенный, чтобы попытаться произвести тот же самый
результат и мера
производительность для этого алгоритма
по сравнению с истинным результатом по сравнению с
предсказал Frizzle, а затем, когда вы были
использовать это в реальной жизни, если бы вы
новые данные поступают, тогда вы будете использовать
эти предварительно изученные веса, и вы бы
прогнозирует выход , основанный на том , что для
бесконтрольный
у вас нет результатов, чтобы вы не знали
именно тот класс, который он должен
принадлежать к алгоритмам,
необходимо решить, что будет
дать вам представление о том, насколько хорошо
ваши алгоритмы должны быть обучены, поэтому некоторые
из них решаются, закрыты ли данные
или далеко , так что, поскольку эта мера
расстояние между данными, есть также
могут быть другие причины, по которым вы хотите сделать
это также, и вы можете предоставить свои собственные
мы говорим о
индивидуальный или персонализированный
функции для фактической
выход будет обозначен как 1 -го класса
или класс 2, если что-то важно, но
в реальном в реальном мире большинство данных
обычно является полуконтролируемым
вы обычно начинаете с некоторой метки
данных и, как правило, намного больше, чем
немеченой, поэтому вы можете комбинировать
эти две вещи вместе, возможно, вы
может использовать помеченные материалы, чтобы начать
вывести некоторые из кластеров, а затем
применять немаркированные данные, чтобы вы знали
действительно заполняя шаблон немного больше
давайте поговорим о некоторых конкретных
алгоритмы Я буду говорить о том, чтобы
у каждого парня есть свой любимый
алгоритм, этот первый называется
дерева решений и
различные типы дерева решений, но
мы будем придерживаться простой
пока они могут быть использованы для
классификации и регрессии и
идея заключается в том, что они предсказывают цель
целевое значение класса или значения
или что-то, основанное на некоторых очень простых
правила принятия решений, так это менее 10 или
больше 10, это он помечен как a или
обозначенный B, пример, который мы получили там
право довольно болезненно на самом деле это
это дерево решений, которое было изучено
из данных, предоставленных «Титаником»
проявляется, и это предсказывает,
вы выживете, если будете на
Титаник или не так первый вопрос
он спрашивает , является ли секс-мужчиной, так что если бы это было
да, тогда он переходит в одну сторону от
дерево слева, если это не было
вниз по правой стороне дерева, так что если
ты была женщиной, у тебя была довольно хорошая
вероятность 0,73 , так 73% вероятность
выживания и что представляет 36%
все население внутри Титаника или
как если бы вы были мужчиной, и если бы вы были
выше 9,5, тогда у вас довольно большой
шанс, что ты умрешь
к сожалению, 61% всех мужчин из 9,5
умер, и вы можете видеть, что можете идти
вниз по дереву, и вы можете сделать
решение , основанное на этих правил так
Идея алгоритма заключается в обучении этих
эти параметры определяют эти решения
указывает на оптимальное право
решение
так что это концептуально довольно просто.
обрабатывать категориальные данные, которые великолепны
потому что некоторые алгоритмы не могут не
деревья принятия решений могут
ooph это довольно плохо, но есть много
методов
использовать деревья решений в другом
способ предотвратить переобучение, так что не
беспокоиться о том, что слишком много и решение
деревья обычно являются одним из самых простых
и иногда достаточно эффективны для решения
проблема заключается в следующем алгоритме и
окруженный множеством шумихи в настоящий момент
глубокое обучение, поэтому глубокое обучение
это действительно хорошо, потому что вы помните
эти классы типов алгоритмов в
начало там он на самом деле делает все
их он выполняет размерность
сокращение классификации
регрессии и кластеризация она могла
все это — священный Грааль
алгоритмов, никакой другой алгоритм не может
на самом деле делают все те же идеи
заключается в том, что он на самом деле пытается моделировать
наш процесс обучения в нашем мозгу
в основном это моделирует нейроны
и синапсы в вашем мозгу, чтобы сделать
подобного рода задач , это это
несколько упрощен, но это
общая идея, поэтому надежда здесь
что, если мы сможем создать модель, которая
нашего мозга, что тогда мы можем заслужить право
алгоритмы для выполнения
мозг может очень легко
классификация классификации
что так плюсы и минусы снова
очень универсальный, может использоваться для
разные задачи
главное — это то, что он
начинает удалить требование
особенность инженерного так со всеми из
другие алгоритмы, которые ваш алгоритм будет
жить или умереть , основываясь на том, что функции , которые вы
дать ввод, который вам нужно
сложно с другими алгоритмами сказать
что это самая важная функция
Я буду держать это и использовать это , но
те из них , полностью
избыточным я собираюсь удалить их и
что занимает значительное количество времени
с глубоким обучением он обладает способностью
внутренне на этапе обучения
либо полностью удалить параметры, либо
полностью сохраняя параметры
основанный на том, насколько хорошо он соответствует данным, как
хорошо, процесс обучения идет так,
устраняет предвзятость, исходящую из
удаление данных или добавление данных, которые вы
не уверен , что он должен быть там или нет
на самом деле существует предположение
есть пара минусов, самый большой
может быть трудно представить, как скоро
как вы начнете получать в
размеры нейронной сети довольно глубокие
это может быть довольно трудно визуализировать и
концептуально Я надеюсь, будет пытаться
и доказать это неправильно немного, но
um, вот в чем проблема номер один
и проблема номер два может быть вполне
вычислительно дорого, но это
это верно для нескольких
алгоритмы действительно так, как они
на самом деле хорошо работают, все они работают
в первую очередь, пытаясь осмыслять
так что есть такая идея, что
нейронные сети действуют как
иерархии понятий и
Вся цель действительно принять те
изображения также принимают ваши данные и создают
концепцию что-то точно
описывает, что предусмотрено на входе
поэтому у нас есть пара понятий
слева у нас есть улица,
животным и человеком, но вы можете видеть, что
вы не
на дне тех лиц и
животное там, где они действительно связаны
вы знаете, что они оба
животные только один из них в человеке так
великая вещь о задержке
концепция заключается в том, что вы действительно можете начать
пометить вещи, которые похожи, но не
совершенно одинаково на основе вашего обучения
данные, чтобы быть более конкретными, это говорит о том, что
пример того, как вы будете идти
концептуализация изображения, поэтому каждый пиксель
внутри изображения, которое является пунктирной линией
там, которые будут переданы в
вклад нашего глубокого обучения, и
начать сокращать концепции вокруг этих
пикселей, чтобы первый уровень мог решить
что вы знаете часть шины
или кучу обода или торцевой пластины или
что-то вроде этого обычно очень мало
сдержанный вид местных вещей в пределах
изображение следующего слоя может начать
построить эту концепцию и построить
концепции шины или полного крыла или
реальное крыло , а затем , наконец , мы получаем в
классификации и в этом случае является f1
но вы можете себе представить, что если вы тогда
показал алгоритм нормального автомобиля он
могут повторно использовать некоторые из этих концепций, которые они
у них все еще есть колеса, они все еще
ты знаешь кокпит или наши тела
прочь , вероятно , не имеют крылья , я не
знаю, может быть, в Лидсе я не знаю
о Дании
но вы можете повторно использовать некоторые из этих понятий
и что вид показывает применимость
не только не просто проблемы ,
уже видели, но и будущие проблемы
что он не видел , и так просто
закончить этот раздел от действительно просто
машинное обучение в новостях или глубоко
учиться в них в новостях
Мне очень нравится, что это доступно для
кто-то действительно является Google новым
Приложение Google Translate, которое снимает фотографии
знаков или текста на другом языке
и он переводит этот текст, но реальный
прохладный USP — это то, что
он фактически принимает изображение и заменяет
изображение с правильным текстом в вашем
язык, поэтому здесь у нас есть русский
и он заменяет его
Английский, здесь я говорю, что он говорит
доступ к городу, но согласно моему
друг, кто говорит по-русски
фактически означает выход в деревню, чтобы не
доступ к выходу из города в деревню, но это
не так грандиозно, если бы мы показали, если
Google показал нам науку и выйти на
деревня, поэтому, вероятно, именно поэтому они
изменили его, а затем мы получили
изображения внизу, и это новый
чип, разработанный IBM, было несколько
лет на самом деле, но
эффективно это глубокое обучение
инфраструктура типа нейронной сети
внутри чипа, очевидно, что у вас есть
причина, и вы привыкли к делу
представьте, что причина распараллеливается массово
поэтому вместо того, чтобы вы знаете один звонок
у нас есть десятки тысяч в этом случае
на самом деле миллион есть
миллион нейронов в этом чипе, так что
способен выполнять миллион параллельных задач
в то же время и когда мы
некоторые из примеров за минуту
мы будем говорить о том, как
размеры изображения, такие как 10 10 на 10 100
входные пиксели, которые опускаются, возможно, на 2
2 выхода на 2 размерах на
вывода, так что в
сравнение с тем, что это может сделать и
это на самом деле в аппаратном обеспечении, а так
это сверхбыстрая сверхнизкая мощность и
должен произвести некоторые действительно интересные
приложений, так что это просто затвердевать
Мои работы
рассмотрим пример, который является
описание
некоторых чисел здесь, поэтому
Идея этой задачи — признать некоторые
рукописные цифры и классифицировать их
как число от 0 до 9, так что это действительно
классический пример машинного обучения
но это действительно здорово использовать в
пример в качестве примера, потому что это очень
легко понять очень легко для
все понимают, что это просто пытается
признать , что это число и
Первое, что мы замечаем, когда начинаем
глядя на данные, поэтому первый шаг в
любой в любой работе по анализу данных должен иметь
взглянуть на данные и первое
мы замечаем, что если вы на самом деле, если вы
посмотрите на то, что верхний левый номер там
поэтому я не совсем уверен,
это 5 или 3, и это
немедленно приносит проблемы, потому что это
данные на самом деле помечены так, что каждый из
эти примеры вы увидите так каждый
число — пример, вы можете видеть, что
это было перевернуто, может быть, у вас есть
кто-то написал перо на белой бумаге и
он перевернут, а затем уменьшен до
фиксированный размер пикселя, а затем отправил его как
ну и первое, что мы можем видеть
мы уже не уверены, что это
3 или 5, и поэтому кто-то ушел
и обозначили эти данные как
3 или 5, но я не уверен, что
это действительно правильно, поэтому мы даем
наш алгоритм потенциально хитроумных данных
уже так есть, когда
вы пытаетесь подготовить данные о том, что ваши
ваши данные ярлыков могут быть неправильными в
первое место, потому что это обычно
это обычно обозначается людьми, поэтому
то, что мы делаем с каждым примером, мы
подавайте его во входной слой, чтобы я
пытаясь держаться подальше от термина нейрон
хотя я упомянул об этом
пару раз, потому что это было
вокруг с 80-х годов, но это звучит
но это действительно не все
нейронная сеть — у вас есть узел, где
некоторые данные поступают, а затем у вас есть
ссылки на дополнительный поднабор узлов и
это те ссылки, которые имеют вес
что это так просто , как и все мы делаем
мы изменяем веса в пределах
сети для выполнения задачи
Я попытаюсь воздержаться от использования этого
терминологии, поэтому наш входной слой
обычно того же размера, что и размер
данных, поэтому здесь мы сделали, возможно, 10
10 пикселей, поэтому у нас есть 100 входов
есть один вход для каждого пикселя, который мы тогда
передавать данные до того, что известно
как скрытый слой, и мы называем это скрытым
немного по сути, потому что это не
вход или выход — это что-то в
в середине он не наблюдается непосредственно
и способ их подключения
с весом и во время обучения
обрабатывать эти веса, может быть, вы знаете
полностью удаляется, устанавливая его на ноль
или вы полностью знаете, сидя
это все одно, и это все обучение
процесс делает так, что действительно здорово
на данный момент состоит в том, что эти веса
на самом деле они объединяются в следующем слое
так что вы, возможно, узнали, что
веса , которые были изучены для этого
один конкретный нейрон в скрытом
слой действительно можно рассматривать как
Особенность этого — это начало
концепции, поэтому он говорит, что данный
что один нейрон, что один элемент в
скрытый слой, который имеет
определенные веса на каждом из входных
пикселей , так что если мы , если , если мы должны были сделать
что выходной слой там мы могли бы
представьте, что если бы это был результат
слой для числа один вес
будет представлять собой форму, которая выглядит
что-то вроде номера один вообще
в скрытых слоях у вас несколько
скрытые слои , так что вы пытаетесь получить
алгоритм для изучения этих небольших шагов
эти небольшие приращения понятия и
мы действительно можем сказать, что
ибо для этого одного скрытого слоя мы можем пойти
назад и скажите, что делает входной слой
должны выглядеть так , чтобы полностью
активируйте этот нейрон и только тот
один нейрон, так что это пример того
здесь скрытый функциональный слой, и он может
выглядите немного абстрактно, но вы можете просто
о том, чтобы начать понимать, что это
начиная изучать этот вид призрака
изображения чисел там, и это
потому что он начинает изучать некоторые из
эти концепции, если бы вы использовали
количество скрытых слоев и сказать, что вы знаете
не пытайтесь узнать номер всего
за один раз он может придумать функции
которые похожи на края, возможно, они могли бы научиться
край палки a7 или, может быть, вы
могут начать изучать некоторые кривые девяти
или что — то подобное , и они являются
скрытые объекты, находящиеся в середине
всех этих сетей
так , то в конце концов мы бы производить
выходной слой , который обычно составляет
количество возможных классификаций
что мы хотим сделать так для нашей продукции
слой у нас было бы 10 у нас было бы 0
до 9, и каждый из этих узлов будет
представляют собой число и на выходе
если бы мы фактически поставили один из
эти примеры в вас никогда не получат 100%
вы всегда это понимаете, мы говорим
ранее о том, как они это не
детерминированные, но вы вроде как
детерминированных в том смысле, что они
имеют фиксированный вес, чтобы вы могли следить за
путь этих весов через данные
однако мы никогда не уверены, что
вернуться к предыдущему примеру
мы никогда не уверены, будет ли это 5
или 3, поэтому мы перейдем к алгоритму
вероятно, решит, что я на 50 процентов
что это 5, но есть 40%
Вероятно, может быть 3, поэтому все
числа, которые генерируются в основном
классификация производится путем выбора
самый высокий из этих чисел, поэтому в этом
случай сказал бы, что 5 — это
классификация для этого примера, потому что
которые добавляют наибольшее значение на выходе
но что действительно круто, так это то, что
мы можем вместо этого попытаться сказать
он должен классифицировать объекты только
имея 10 выходов, мы можем на самом деле
производить одинаковое количество выходов и
входы и скажите, пожалуйста, алгоритм, пожалуйста
попытаться и восстановить изображение, основанное на
ваш скрытый вы знаете понятия и
представления, чтобы мы могли здесь
получает определенный результат, пожалуйста, уменьшите
воспроизвести этот ввод, а затем мы могли бы
сделайте некоторое сравнение, чтобы увидеть, насколько это хорошо
так что это пример того, что
реконструкция действительно выглядит и
если я просто щелкнул назад или вперед
между тем, что было реальным, что было настоящим
входные данные и какие были изученные концепции
о том , что вы можете отчасти видеть , что
Ученые концепции вроде как
пьяная размытая версия реального номера
и это потому, что они
узнав, что они сделали то, что наиболее вероятно
посмотрите на это конкретное число и
и то , что действительно интересно, в
реальные данные с тем, что мы не будем показывать
будь то 3 или 5, но если вы посмотрите на
пьяный стих
это на самом деле выглядит немного больше, чем
пять , и это говорит о том , что
алгоритм был определен хорошо, но это
вероятно, был помечен как пять, так что
поэтому алгоритм узнал, что из
эти функции как пять, поэтому, когда вы пытаетесь
и реконструировать его, он больше похож на
пять, а затем, наконец, мы говорили о
уменьшения размеров, поэтому мы можем
do — это высокий размерный выход
поэтому в этом случае у нас есть десять дискретных
классы от нуля до девяти, и мы можем
сгладить их в космос, чтобы у нас не было
десять измерений для построения всех наших данных
мы не можем не построить 50%
от пяти до тридцати процентов
двадцать процентов из трех и так далее
и т. д. все на графике, потому что мы
не так много размеров, чтобы
мы можем сделать, это сгладить все это в
два измерения, и это то, что
процесс здесь, и то, что он показывает
насколько хорошо данные кластеризуются
вместе, чтобы мы могли видеть, есть ли у меня
очень близко к моему экрану, я вижу, что
число семь в нижней части
довольно хорошо сгруппированы там количество
восьмеры в порядке слева, а затем
у нас также есть очень странные
таких функций, давайте возьмем пять и
три примера вы видите пятерки в
оранжевый в середине они довольно хорошо
смешанный с тремя, и это своего рода
потому что должно быть довольно много
примеры, которые выглядят как пять или выглядят
как три, так что они довольно хорошо перемешаны
так что это означает, что
классификация алгоритма
должны работать очень тяжело, чтобы попытаться и вы
знай, что они разделяют, так что это то, что
вы обычно делаете на выходе
вы бы попробовали и визуализировали
данные таким образом, что мы, как люди
может не понять, что может быть
в 2d или в 3d хорошо, надеюсь, что
этот раздел вас познакомил с
два глубоких обучения и некоторые идеи
и некоторые термины, поэтому, когда я
приходят к некоторым из финансовых демоверсий
там это должно быть намного проще
понимаем, что первым примером является
традиционный пример с использованием основанных на правилах
подхода, и в этом случае мы были
Немного фантазии мы используем в графике
базы данных , как правило , рентгенографические над ним
базы данных не используются так сильно, как мы
но они действительно хорошо работают в
в сценарии, основанном на мошенничестве, поэтому просто
быстро повторите, если вы не знаете график
база данных — это еще одна новая база данных SQL
но его сила — это описание
данных, поэтому данные могут быть только когда-либо
либо узел, либо связь узла
как вещь или существительное, тогда как
отношение — это ссылка или
отношения или глагола или
в основном соединяет две концепции вместе
и ключевым моментом продажи является то, что
иногда у вас есть данные, которые просто
лучше описывается на графике типа
так, например, когда мы
о мошенничестве и финансах и
материал
у вас есть концепции людей и
счетов и тех людей и учетных записей
все связаны с разными вещами
они связаны с адресом ссылкой на
текущий счет и т. д., например,
мы получили традиционную
традиционный случай использования социальных сетей, где
у нас есть бобы эти друзья Бобби
с Джейн у нас есть стул
в комнате Джейн купила книгу и так
но реальная сила заключается в том, что один раз
вы смоделировали его таким образом, чтобы
выполнять сложные запросы, которые вы
не сможет сделать в традиционном
реляционная база данных, поэтому, когда вы захотите
сделать это, чтобы вернуться в социальные сети
пример снова, когда вы хотели сделать
кто дружит с моим другом, которого вы
сделать сумасшедший, связанный с вашим SQL в
чтобы получить это, чтобы работать с графиком
базу данных, которую вы можете просто поп, вы можете просто
прыгать через график, это делает его действительно
действительно быстро, поэтому в их ситуации мошенничества
мы могли бы моделировать наши данные на что-то
например, у нас может быть учетная запись
держатель посередине, и они
отношения с телефонными номерами или
национальные страховые номера
это, а затем мы можем выполнять запросы по
что если бы мы хотели , но когда ты
начните просматривать это подробно и
фактически просматривая, как эти соединения
соединяют вещи вместе
интересные образцы начинают выходить
и особенно если вы его визуализируете
таким образом , намного легче
визуализировать данные таким образом,
таблица, например, так в этом примере
у нас есть три владельца счета в красном
имея красный красный цвет, они красные и
они связаны различными способами
у нас есть все трое из них
тот же адрес, чтобы кто мог быть изворотливым.
на самом деле был человек в другом разговоре
Извините
что III предлагает, чтобы все три
люди, разделяющие тот же адрес, что
может быть изворотливым, и она была как нет
нет нет нет , когда тысячи людей
разделяя один и тот же адрес, тогда это изворотливый
три в порядке , не беспокойтесь об этом, так что
Мне все равно, но мы могли бы создать
вы должны знать, сколько
люди используют один и тот же адрес и
вы можете сделать это в традиционном
базы данных, но где власть действительно
приходит, когда вы начинаете связывать эти
эти вещи вместе и ищут
эти большие кольца и группы в пределах
данных, поэтому, если мы предположим, что непосредственно два
люди не разделяют одну и ту же национальную
страховой номер, например
незаконно в Великобритании, возможно, есть третий
которая связывает эти национальные
Страховые номера вместе, чтобы вы
фактически начинают формировать эти кольца
в пределах данных, которые
не естественно, это не должно быть
кольца в базах данных и графов
действительно хороши при просмотре и обнаружении
эти кольца, так что это
технологии, которая существовала бы в дикой природе
сегодня, если бы нас попросили выполнить
работа , как это , но когда мы на самом деле
заинтересована в том, чтобы принести машину
методы обучения для некоторых из этих
идеи, поэтому первая идея, которую я имел, была вполне
типичный действительно, и именно поэтому
поэтому я сделал это, потому что это было совершенно
легко сделать, но в принципе, если мы могли бы использовать
голосовые отпечатки пальцев для его создания
просто решает только основную
причины действительно, это спасло бы пользователя от
значительное количество времени, которое пользователь
вы бы знали,
значительно улучшилось, не дожидаясь
телефон в течение 20 минут только потому, что
какая-то глупая автоматизированная система привела вас к
неправильное место, поэтому, если мы сможем использовать их
голос человека как форма
аутентификации, тогда мы будем
возможность сэкономить время, чтобы сэкономить
машины и быть в состоянии спасти свои,
сила людей на другом конце
телефон, чтобы сделать это, что нам нужно было сделать
чтобы записать голос клиентов
мы затем предварительно обрабатываем данные каким-то образом
чтобы очистить его и положить его в формате
это это может быть возложено на
алгоритм в этом случае мы будем торговать
модель глубокого обучения, но это может быть
любой алгоритм, и тогда мы будем хранить это
отпечаток пальца для будущей проверки в
онлайн-сценарий, поэтому, как только вы
настроить, чтобы пользователь пришел к вам
повторить его голос снова, возможно, против
предустановленная фраза, возможно, против новых
фраза, и тогда вы сравните это
результат отпечатка пальца, и это
докажите, знаете ли вы этого человека
действительно, кто они говорят, что это так
этап предварительной обработки в действии, поэтому
это немного обработка сигнала, которая
это преобразование тактового
аудиофайл на частоту в
частотной области, так что вы
видя, что есть график частоты
компоненты против времени, поэтому красный сильный
и что зеленый синий цвет слаб
поэтому он говорит, что вы знаете, что можете видеть
там пробелы между данными
они видят, где это остановилось
скажите слова, и я думаю, если мы, если это
работает да, так что это некоторые примеры данных
что я использовал в моем обучении , и это
три примера из трех человек, говорящих
та же фраза не спрашивает меня, что
фраза на самом деле означает, что я не знаю, что
ничего, но в любом случае вы можете сказать
что эти три голоса звучали
иногда немного отличается, но в
этот последний пример совершенно другой
и то, что мы пытаемся сделать, — это
заставляют глубокое обучение думать одинаково
хорошо, поэтому, как только мы поместим его в наш глубокий
мы изучили модель обучения
и мы выпустили нашу продукцию
в этом случае между этими тремя
разные люди, чтобы у вас было три
выходы, а затем мы сжимаем
что мы раздавили это под
экран в два измерения, и это
сюжет, который показывает, насколько близко все эти
голоса были между тем, что у нас есть
пара разных точек и
в разные цвета там — Боб
Стив и Дэйв они соответствуют к
три разных примера три
разные люди, дающие пример
извините , и каждая отдельная точка является
что они сказали, что мы
десять десяти разных фраз, которые они сказали
и вы можете видеть, что все эти
примеры объединяются вместе
так что если мы тогда возьмем еще
те же люди, но используют разные
устный пример, поэтому не одни и те же примеры
как это будет выполняться
новые данные, поэтому я думаю, что мы снова и снова
теперь в результатах, которые были
необработанный результат —
три нейронов для этого файла и
это говорит о том, что один из новых ваших
наград — 0,98
10,1 еще 100,1, а также
это говорит, что вы знаете Боба
определенно уверен, что 19 процентов уверены
что это определенно Боб
у вас есть 97-процентный шанс, который был
Стив там 96 процентов это был Дэйв так
этот пример был довольно простым
пример в том смысле, что он использовал только
очень маленький набор данных, но это вы знаете
это поучительно, и это своего рода очки
к тому, что мы могли бы сделать в
в будущем, учитывая гораздо больше данных, я имею в виду
каждый телефонный звонок, который мы получаем в эти дни
всегда мы записываем ваши
голос для целей проверки
поэтому должны быть огромные обширные базы данных
народные голоса там, так что следующий
достаточно деревьев решений, так что это
пример дерева решений, который мы показали
ранее, и это предсказывает
ипотечный дефолт настолько удивительно, что два банка
— жаль двух поставщиков ипотечных кредитов в
мы обанкротились , как обычно, конечно , и
были выручены налогоплательщиком США, поэтому мы
принадлежащих правительству США, так что Фредди
но Freddie Mac и Fannie Mae и как
часть их я не знаю как часть
их репрессии в основном
запястье, правительство вынудило их
публикует множество своих данных для общественности
и, как ни удивительно, они публиковали
весь набор данных ипотечных заявок
а также исторические отчеты о том, что
случилось с теми заявлениями на ипотеку
так что вы можете сказать, что они сказали нам
ли это лицо, то дефолт в
будущее, поэтому задача здесь
некоторые дали некоторые о дорогой я бегу над
время для ускорения, учитывая, что некоторые данные
можно предсказать,
человек будет дефолтно, поэтому первый
первая проблема — все данные
проблема очистки, как мы видели
предыдущий разговор — это подавляющее большинство
времени на очистку данных
Я пропущу это , так что если бы мы были
сгладить все данные, которые были
возвращаются в изображение, прежде чем мы
это через алгоритм, это своего рода
похоже, что это очень
смешанные и смешанные не могут
понять, что происходит, поэтому решение
дерево изучает все эти правила
и исходя из результатов этих
правила, скорее, да, дефолт
нет, они не дефолт, поэтому мы
приблизительно 20 000 образцов всего 50-50
разделить случайный классификатор леса, чтобы он
тип алгоритма дерева решений, но
лучше не подходит больше, чем только 11
входные функции, поэтому главная проблема здесь
Я на самом деле не думаю, что у нас есть
достаточно данных, чтобы сделать действительно хорошую работу, но
мы увидим, что мы можем сделать, и одно
Великая вещь о деревьях решений — это то, что
на самом деле дает вам
важность для всех этих переменных, поэтому
здесь у нас есть переменные, которые были
введенный в алгоритм внизу
и это показывает их соответствующую важность
этих переменных на
левой стороны, чтобы вы могли видеть на самом деле
кредитный рейтинг на втором месте, поэтому
Я не уверен, что ссылка на кредит
агентства были бы слишком рады, что вы
знают, что они могут объяснить только 0,25
данных, поэтому 25% данных могут быть
объясняется только кредитным счетом
не лучший результат для них и
на самом деле самой важной мерой было
происхождение HPI, которое было домом
создание индекса цен для этого местного
так что это говорит о том, что человек, который
вывез ипотечный кредит в очень местном районе
это очень зависит от цен внутри
о том, будут ли они собираться
по умолчанию или нет, и это
типично в США, вы можете видеть
как обширные участки подобных мест, таких как
Детройт, который вы знаете, как только некоторые из
рабочие оставили всех, просто потеряли свои
рабочих мест во всей ценовой зоне дома, тогда
разбился, а потом люди не могли себе позволить
продать , потому что они не могли бы продать его так
вот почему это так важно
интересный результат, а затем окончательный
Например, мне нужно двигаться скорее
быстро, потому что у меня есть только два
минуты остались , но можно взять
эти данные
и попробуйте посмотреть, есть ли
что — то странное происходит без в
данные так в основном это
немеченный пример, мы не говорим об этом
что учиться здесь так , как мы это делаем
хорошо существует глубокая методика обучения
называемый автокодером, который в основном
принимает входные данные и ограничивает
количество скрытых нейронов до нескольких
он говорит, что у вас действительно есть
выбирать, какие данные вы используете и
генерировать некоторые концепции, которые действительно
довольно строгий, а затем мы пытаемся
снова воспроизвести вывод, и мы
сравнение выхода с входным
как показатель того, насколько хорошо мы это сделаем
поэтому в основном эти ограничения в
средний может быть только два нейронов, которые вы знаете
да, и нет, что-то вроде того, что
можно восстановить данные, чтобы мы
может сделать это, поэтому есть те же данные, что и
до этого немного отличается
образец, чтобы он мог выглядеть немного
у нас есть входной слой a
количество скрытых слоев, которые
сжатие данных вниз
и меньшие нейроны, а затем мы
восстановление снова на вход
слоя и сделать сравнение, чтобы увидеть, как
но мы сделали, но то, что мы можем сделать, это
участок в два или три D один из тех
скрытые слои, чтобы
концепции и то, что мы узнали, и
наконец, это результат
процесс и левая у нас есть
2d-представление, и вы можете начать
видеть, что на самом деле есть какая-то структура
внутри этих данных, так что в целом вы
может видеть, что люди, которые дефолт
каждая уловка на этом графике или на
левая сторона и люди, которые
не по умолчанию в правой части
и там, если вы посмотрите на
правая часть есть пара
оранжевые точки, и это говорит о том, что
подавляющее большинство людей там не
по умолчанию , но один или два человека сделали теперь
аналитик может начать спрашивать, почему это так
может быть что-то совершенно невинное вы
знаю , может быть, человек потерял его
мощная работа пошла в тюрьму
что — то подобное , но это своего рода
показательно, что что- то еще происходит
и именно здесь аналитик
приходят и начинают расследование того, что
данных, поэтому они полностью немечены
и алгоритм не имеет абсолютно никакой идеи
что это значит
и человеку по-прежнему требуется
анализа и провести некоторое расследование
выяснить, что произошло, но эти
виды инструментов приводят аналитиков в
правильное направление, а не просто
взяв случайный Сэм
и, наконец , на правой стороне
у нас есть трехмерное представление
одни и те же данные , и это, где это становится
действительно действительно мощный, вы можете себе представить
как если бы вы могли получить этот график, и вы
может понравиться смотреть в нее и перемещать ее
и поверните его, и вы можете начать
см. кластеры в 3D- пространстве, и именно тогда
он начинает погружаться и дан
достаточно времени, которое требуется для этого, требуется определенное
сколько времени для любого аналитика
анализировать данные, но при достаточном количестве времени они
смогут научиться видеть шаблоны
в пределах этих данных, которые помогут им
исследовать то, что у них нет
видел раньше, и я думаю, что лучше остановиться
потому что я полностью исчерпал
так что большое спасибо за
прослушивание
вы
Please follow and like us:

Be First to Comment

Добавить комментарий