Press "Enter" to skip to content

Standard Deviation — Data Science in JavaScript — Fun Fun Function


хорошее утро в понедельник сегодня мы идем
изучить стандарт стандартного отклонения
отклонение является статистическим понятием, мы
собираются рассказать о том, почему именно
он существует и что он хорош для и как
реализовать его, и мы собираемся это сделать
что в JavaScript это то, что мы
будем говорить о сегодняшнем дне , я MPJ и
ты смотришь веселой функции, которую я знаю
что некоторые из моих давних подписчиков
может быть, почему статистика почему
статистическая концепция — это
канал программирования, что мы изучаем
некоторые статистические данные, поскольку статистика
основа машины изучения этого
эпизод похож на альфа-бета
я хочу сделать больше эпизодов о
наука о данных, потому что я думаю, что мы как
программисты переходят в будущее
где мы не можем уйти с не
зная, что наукоемкая машина
обучения и анализа, и все это
все больше становится все больше
используется в бизнесе и почти все
все места разработки программного обеспечения
просто все больше и больше
позвольте мне немного рассказать о том, почему я
думаю, что это 45, это на самом деле
интересный пример в этом контексте
откуда, если я начну и около 10
лет назад они провели некоторое тестирование пользователей и
они попросили людей, чего они хотят
из облака на основе музыкального проигрывателя и они
люди в этот момент имели эти
mp3-библиотеки с несколькими тысячами
тысячи песен, так что есть
их настроение они хотели, чтобы они
сказал, что им просто нужно все в
список состоит в том, что если все
в списке, который вы бы начали
прокрутка сверху, как жизнь на
где наш бар и прочее, а затем вы
прокрутка прокрутки и прокрутки и прокрутка
и прокручивать, прокручивать и прокручивать
прокрутите, но маленький курсор
прокрутка не переместилась бы
потому что там было так много музыки на
обслуживать, когда
у вас есть миллион байджонных песен, таких как
старые условности просто отображение
данные прямо не имеют смысла
когда я начал использовать компьютеры, я не
точно знаю, как 20 лет назад, возможно
все было похоже на очень базу данных
Мне нравится все интерфейсы
были столами, это вроде как все
породы из Excel и баз данных, потому что
в информатике и программировании
кортеж или база данных Row — это очень
полезная форма для размышлений о данных
и для хранения данных это в основном
данные часто хранятся, я имею в виду не продолжение
Базы данных вроде как эти данные
объекты, но они все еще добрые
вроде строк, поэтому интерфейс
двадцать лет назад они были в основном
просто очень тонкий слой поверх
данные Я только что показал вам, где ваши файлы
ваши mp3-файлы в музыкальном проигрывателе
Winamp
и это дало вам возможность поиска
вещи, которые вы могли бы поместить в другие списки
и другие таблицы, такие как плейлисты, но в
в конце концов это было похоже на показ
вы данные в очень беспрепятственной форме
и это хорошо означает теперь это просто
это означает, что он должен дать пользователю больше
мощность , насколько это возможно , и пусть пользователь
выяснить их о на их собственной , что
они хотят сделать все это, эти данные
и это дает вам некоторое управление данными
инструменты, но с течением времени мы добрые
узнать, что это мышление может быть
быть проблематичным, пользователь на самом деле не
как проводить время с вашим программным обеспечением
пользователь не хочет использовать программное обеспечение
они, когда они используют музыкальный плеер
они хотят, чтобы они хотели сыграть песню
что соответствует их настроению, например, или
случай aa проверяет посещение магазина
которые они хотят, когда они
это, как только они
решение о покупке, которое они хотят переместить как
как можно быстрее от этой точки до
вы фактическое оформление и оплата и
чем больше времени пользователь потратил на
этот процесс ухудшает худшее из
они есть, и чем больше у вас есть
как команда разработчиков программного обеспечения в
утопический мир, программное обеспечение просто
волшебным образом знает, чего хочет пользователь и
дает им и пользователю действительно
не нужно использовать программное обеспечение
неправильно с ним вообще
поэтому в последние годы у нас все больше и больше
программного обеспечения, которое учится и рисует
и просматривает данные для пользователя и
выясняет, чего хочет пользователь Amazon
начал делать это с покупками
опыт, это как-то началось вычисление
что если пользователь , купивший это
вещь тоже купила эту вещь, и там
это большой образец, где вы можете
можете ли вы, когда пользователь выбрал
положить что — то в своей корзине вы
могут основываться на данных, рекомендуют их
что они также помещают это в свои
Корзина Spotify имеет чрезвычайно
успешный продукт под названием Discover
еженедельно, который снова является просто списком, но он
это автоматически созданный список, который
основано на вашем предыдущем прослушивании
история в последние месяцы или год I
не знаю, что он генерирует список
рекомендации для вас, что вы будете
вероятно, с некоторой более связанной степенью
вероятность того, что вам понравится, и что
вы еще не слушали, что нет
интерфейс для поиска еженедельно, кроме
пользователь просто делает то, что они делают
и на основе этих данных
Spotify генерирует генерирует это
волшебный плейлист для вас каждый понедельник, поэтому
есть такое движение в
индустрия программного обеспечения из этого понятия
что вместо предоставления пользователям
программное обеспечение, вроде как очень
мощная база данных, в которой
пользователь может выполнять эти опросы, которые мы имеем
программное обеспечение, которое выполняет поиск
пользователь
20 лет назад пользователь должен был сделать
наука и данные сами по себе анализ
и через 20 лет я твердо верю
это программное обеспечение, как ожидается, сделает эту работу
для пользователя, а это означает, что мы как
разработчикам программного обеспечения необходимо изучить данные
науке нам нужно выяснить , что нам нужно
научиться делать анализ данных в наших
программное обеспечение, потому что именно это программное обеспечение
в первую очередь о том, чтобы не получить меня
неправильно будут интерфейсы и
приложения и нажмите щелчок II вещи
навсегда, но я думаю, что растущее и
возможно, даже большая часть программного обеспечения
будет программное обеспечение, подобное обнаружению
еженедельно или рекомендации Амазонки или
Рекомендации Netflix это разновидность
вещь, основанная только на большом наборе данных
определяет , что это такое, что пользователь
хочет, и именно поэтому вы как разработчик
необходимо начать изучать данные обучения
наука хорошо, так что стандарт
отклонение почему, почему мы хотим его использовать?
и я знаю, что некоторые люди получают
antsy прямо сейчас, как о просто покажите мне, как
стандартное отклонение работает, но
чрезвычайно важно, что вы понимаете
почему вы что-то изучаете, потому что
если вы не ваш мозг будет просто начать
вы все в порядке, и почему он
узнав эту ночь, нет, что тебя останавливает
это я не понимаю, как это
полезно, и ваш мозг начнется
идентифицируя эту вещь, это скучно и
когда скучно, вы просто теряете все виды
мотивации, и вы не сможете
узнать это, или если вы будете
в конце концов , забыть это это
чрезвычайно важно узнать, почему так хорошо
что такое стандартное отклонение, давайте просто
стандартное отклонение задается набором данных
пунктов, как делать пример
о котором мы поговорим сегодня
средний знает порядок
в день, так что в понедельник у вас было 10 заказов
во вторник у вас было 13 заказов на следующий
день у вас было 20 заказов и т. д.
представьте себе такой набор данных , и поэтому они
отличается изо дня в день прямо разного
во вторник разное в среду
разное в четверг стандартное отклонение
это отклонение от нормы
от среднего значения по этим данным
установите это число, которое описывает, как
много номер заказа
обычно колеблется в течение периода времени
хорошо, давайте давайте нарисуем это на этом
Здесь мы имеем заказы и на этом
Здесь у нас есть время, поэтому в нашей
воображаемый магазин электронной коммерции, который нам нравится
пять заказов в понедельник мы говорим
семь заказов во вторник у нас есть
девять заказов в среду, а затем
немного падает, и у нас есть семь
заказы снова, то здесь он достигает 16
и затем снова падает, чтобы сказать:
шесть приказов скажем, что мы хотим
в нашей системе электронной коммерции мы хотим
создать систему оповещения, когда
мы видим такие всплески частично
потому что, если вы получите много заказов, мы
может потребоваться человеку, планирующему
штатное расписание , возможно , потребуется , чтобы получить извещение о
что или, может быть, падение огромно и там
может возникнуть проблема с системой или
некоторые интернет-соединения или вы
знать плохие новости или что угодно
мы хотим обнаружить аномалии и как сделать
мы пишем программное обеспечение для такой вещи
Я имею в виду, что мы cuneus жестко кодируем значения так
что мы как бы выясним, что
app, мы просто делаем некоторые из
расчет салфеток, и мы
что Амбридж вроде как я не
знаете, возможно, четыре или что-то
среднее здесь, а затем мы просто делаем
например, отправлять электронную почту, когда
сумма заказа в день
достаточно далеко от среднего , что это
его диапазон мы просто пишем некоторые цифры
но он действительно не масштабируется, поскольку
поскольку магазин растет и меняется
от недели до недели, как абсолютный
номера хорошо, просто это просто ломается
вниз, и здесь
происходит отклонение в среднем
расстояние до среднего, так что мы
что среднее расстояние
от среднего значения где — то здесь и сейчас
скажем, что это здесь
на самом деле это одно, независимо от того,
поэтому все они входят в стандартную
отклонение, потому что это такое расстояние
от этой линии и это расстояние от
из этой строки все эти пункты здесь
они нормальные, но это
считается вне нормы и
таким образом, мы можем активировать оповещение после
каждый день, используя стандартное отклонение, мы
можно просто проверить, что мы можем просто вычислить
в среднем за текущий период времени , например ,
скажем, что до последних шестидесяти дней, и мы
может видеть, насколько далеко
текущий день, когда мы
проверяли , насколько это от
от среднего или среднего, а мы
может затем рассчитать стандарт
отклонение и увидеть , что если расстояние низкого
или над стандартным отклонением здесь, так что
это нормально, потому что это не слишком
вдали от них, но это мы
знайте, что о, это все над стандартом
отклонение это
подозрительно, мы должны бросить предупреждение о
давайте посмотрим, можем ли мы реализовать это
и вы можете удивиться
внезапно в очках, и это
потому что я снял этот два сегмента раньше
но я забыл записать на экран
все вещи так все в порядке , так что давайте первой
придумайте наш набор данных , назовем их синими
синие синие заказы, я думаю, или как да
давайте назовем их заказы, это будет
наши заказы в день первый день
В понедельник три заказа связывают пять
заказывает семь заказов в среду 8:00 по
в другой день, возможно, пять раз и
то это Рождество, так что это как много
заказов, а затем восемь, а затем четыре в порядке
поэтому первая цель, если вы помните
мой дерьмовый рисунок , чтобы выяснить
среднее среднее количество заказов
в день, потому что без этого мы не сможем
что-нибудь, давайте сначала подумаем об этом
так как мы выясним средний
заказы, я думаю, нам нужны полные заказы
по порядку количество данных
очки у нас заказы длина точки я хочу
немного оценки инлайн здесь
поэтому я собираюсь начать
guaca guaca — это классный маленький плагин для
визуальный код студии, который позволяет вам делать
которая действительно хороша
если вы делаете скринкасты, как я делаю это
здесь мы видим , что мы имеем ошибку на
эта строка — всего заказов, это не
потому что мы не имеем этого
и полные заказы немного неправильны, мы хотим
сумма заказов и некоторые заказы
как мы это делаем, чтобы пойти на сокращение сока
сокращения заказов уменьшаются, если вы не
знакомый с уменьшением, у меня есть видео на
эта тема в
этот угол или этот угол или в
Описание эпизода , если вы время
смутное сокращение принимает два аргумента :
второй аргумент — это сумма, которую мы имеем
начиная с которого равен нулю, и
первый аргумент — это функция, которая имеет
первый аргумент — это сумма, которая на
первая первая итерация будет
нулю , а затем второй аргумент является
закажите, что мы итерации, и я
буду называть это Х, потому что чувствую, что я
может быть сегодня мудаком , это
почему я использую X, и это может быть X плюс
некоторые из них являются самыми основными
так много вещей, о, я
случайно открыл выходной терминал
hi давайте закрываем это и все в порядке, если
Я просто удаляю это, да нет, хорошо, поэтому в
для того, чтобы получить оценку «quokka to line»
вы должны сделать это, а затем в строке
оценивает так, что означает, что это сейчас
65 это приятно, но посмотрите, есть ли в среднем заказы
работает также, я имею в виду этот взгляд quokka
подчеркивая, что нужно прикоснуться к нему
не будет работать
великолепно все в порядке , так что теперь у нас есть это
Здесь следующий шаг — выяснить
эти линии здесь, которые являются средними
расстояние от средней в среднем , как
Мне нравится среднее расстояние
из этой линии между всеми этими точками в
для вычисления этого среднего мы сначала
нужны все различия, поэтому давайте посмотрим,
мы можем сделать это, я просто позвоню
отличия, и это будут заказы
перейдите к использованию математики, если вы не используете математику I
есть видео на этом тоже вы можете проверить
что здесь и в эпизоде
карта описания
один аргумент — другая функция, которая
a это иногда называют картографом
иногда называют обратным вызовом
называется предикатом, это одно и то же
они это функция, которая принимает
каждый заказ каждого элемента в массиве и
подает его в него и возвращает
что-то новое, а затем это становится
другой массив с тем же
новые ценности Я собираюсь сделать
здесь функция не преобразует
ничего , так что я могу проиллюстрировать это
говоря, как я, если я текст плюс один, который вы видите
что все числа увеличиваются на единицу, если
Я делаю a для всех чисел, увеличивая на два
и так далее
однако это просто пример того, что мы
хочу сделать, это вычесть среднее
заказы в день, которые дают нам эти
различия здесь помнят, что мы смотрим
для среднего расстояния от среднего
Я просто позвоню этому среднему, если
[Музыка]
это, и вы знаете, что мы сейчас, что мы
есть этот массив здесь , что мы хотим
вычислить среднее значение, и мы имеем
эта точная логика, потому что мы делаем это на
заказы здесь, так что мы уже
делая это здесь, поэтому я собираюсь сломать
это в функцию, поэтому я собираюсь
вызовите это среднее значение левого массива, и это
будет принимать это будет функция,
берет массив, который мы собираемся
Назовите это на сталь, что дуб, и я
собираюсь украсть это, что должно
сделайте это, и тогда я могу просто, если мы вспомним
что это восемь очков одна две пять
просто идущий
место, где Рэй читал заказы
и это же круто , я могу просто удалить
это то, что это ошибка!
хотя это собирается быть должны были быть там
хорошо, теперь мы можем использовать это когда-либо в
чтобы получить среднюю разницу он
должен усреднять лучевое нет никакого среднего массива
из различий, которые дадут нам 0
это неправильно
это проблема, потому что все
это различия и
дело в природе различий
что если суммировать их все вместе они
на каждое определение будет равным нулю
потому что они отрицают друг друга так
что мы хотим сделать, да, что мы хотим
в основном удалить минус нуля
потому что нас интересует
расстояние от этих вещей от среднего
так что теперь взгляните на этот массив
как это изменяется, когда я делаю другую карту и
Я перехожу в математическую точку абсолютным, так что вы видите
здесь, что он просто принимает и делает
число делает его абсолютным
который в основном удаляет
знак минус, позвольте мне показать вам, когда
Я удаляю это здесь, см. BAM — о, да так
теперь это работает, у нас есть эти различия
здесь они верны и массив
среднее также правильно вычисляет
четыре точки два, так что теперь у нас есть эти
линии
но теперь мы попадаем в раздражающий
часть этой презентации, потому что
мы смотрим здесь почти, но не
вполне стандартное отклонение, чтобы сделать
строгое определение стандартного отклонения
нам нужно округлить все эти числа
вместо абсолютного в них, и мы тогда
следует вычислить среднее
как мы и делали здесь, но после того, как мы
вычислить среднее значение, мы должны сделать принять
квадратный корень из этого среднего, поэтому мы
квадратные различия, а затем средние
их , а затем мы квадратный корень их
не выяснять, почему мы должны это делать
это своего рода из- за математики
причины совместимости с алгеброй и мной
будет идти в том , что немного больше
позже, но пока просто просто пойдем со мной
здесь, и мы просто собираемся сделать
чтобы мы знали, что мы
делают, прежде чем мы поговорили о
о том, почему мы должны это делать, давайте
первый квадрат это и вы квадратные вещи
путем умножения их на себя и
мы позволяем стандартное отклонение равным
к средней разнице или квадрату
корень средней разницы BAM и
теперь мы имеем стандартное отклонение и
теперь мы снова имеем эту вещь эти линии
здесь, но мы имеем это в
математически строго правильный путь
который называется стандартным отклонением
хорошо, я думаю, что мы действительно можем использовать
это, чтобы проверить, является ли что-то нарушением
теперь как помните, что мы — мы
написав этот код, чтобы идентифицировать
эти выбросы и
новые предупреждения для них, поэтому давайте выясним
у них есть что-то вроде outlier let’s
пройти через массив заказов, создать карту
этого и для каждого заказа, который мы собираемся
чтобы увидеть , как далеко это от
tttttttttt
средний порядок позволяет мне просто показать, что
отображается в строке, а затем I
думаю, что мы можем просто вычесть
стандартное стандартное отклонение — и проверка
если если бы это оказалось больше 0
да, вы видите, что 3 5 7 8 5 25 ложных
false false false false true false false false
поэтому типы правильно идентифицировали 25 как
так как вы видите, что можете
легко использовать стандартное отклонение для обнаружения
аномалий и в таких наборах данных, как
вы можете использовать стандартные отклонения для
много вещей , но это один из
во многих случаях стандартное отклонение — одно
наиболее распространенных фраз или концепции
что вы будете слышать в данных
наука бросается вокруг много и
это очень полезно, но я также обещал
что мы немного поговорим , почему мы
должны сделать это, как, почему мы должны
квадрат, и почему мы должны тогда
сделайте квадратный корень этой вещи, это было
настолько чище, чтобы просто делать математическую точку
абсолютный, как от программирования
это кажется немного бессмысленным
это число также не похоже на
чистый я чувствую, что я имею в виду это абсолютно
работает, но почему мы так хорошо это делаем
математики странные, хорошо
странно, но им нравятся отношения
между цифрами, я довольно новичок в этом
вещь, поэтому я
точно не знаю, что это будет
но могу сказать, что это
вещь, которую мы называем
средняя разница на самом деле имеет имя aa
в статистике, и это называется
дисперсия дисперсии — очень полезная
концепция в статистике , это все
эти интересные и рубричные
характеристики или так мне говорят, что я новый
в этот
и это частично связано с тем, что это
он расправил свои ФОРМАТНО вещи имеет
знайте, что это очень хорошо, когда вы
я делаю алгебру
номера очень сложно использовать
в алгебре вообще как это просто промахивается
алгебра вверх, и хотя я не знаю
именно то , что это будет использоваться для вниз
строка, которую я могу сделать параллельной
то, что вы могли бы знать, и что
является пифагорейской теоремой Пифагора
которая представляет собой взаимосвязь между
стороны треугольника-математиков
выяснили, что есть отношения
что между тремя линиями треугольника
поэтому я не помню, что думаю
это сторона с квадратом плюс
синус b квадрат всегда равен стороне c
в квадрате, когда вы впервые подвергаетесь воздействию
Пифагорейская теорема кажется
интересная новинка , но не больше , но
это на самом деле нелепо полезно, потому что
его можно использовать для расчета расстояния
между точками и всеми видами
интересные вещи, а затем вы можете
перетасуйте это, чтобы выяснить
расстояние, даже если вы знаете только два
очков, и это просто все хорошо.
холодно с алгебраической точки зрения и
очень полезен, и я и я доверяю
математики, что дисперсия будет
в конечном итоге становятся очень полезными, и мы
сможет использовать его для многих вещей
как это, но в основном это из- за
хорошие алгебраические свойства квадрата
чисел
сделайте это возведение в квадрат, а затем на квадрат
в использовании квадратного корня
и это все, что я изучил
стандартное отклонение сегодня, а затем я
о том, почему нам нужно учиться
статистика как программисты , и я это
потому что я думаю, что мы в настоящее время
делегировать много просеивания через данные
и выяснять вещи пользователю, но
в будущем мы будем должны делать
что для пользователя в большей степени и
для этого нам нужно знать науку о данных
то я сделал эффектно дерьмовый
рисунок, где я показал кучу очков
на час в системе шоу электронной коммерции
что мы должны были вычислить
среднее и что стандартное отклонение
эти строки указывают, как
далеко по средним точкам данных в наших данных
множество стремится к блужданию, а затем мы можем использовать
эти средние значения, чтобы выяснить, когда некоторые
идет кровавый выброс, и мы можем
создать систему оповещения для
Например, это всего лишь один из многих
использует для стандартного отклонения, а затем мы
фактически осуществила реализацию, где мы
рассчитано стандартное отклонение
в данном наборе данных мы использовали карту и
уменьшить это, и изначально мы сделали
простая реализация, в которой мы только что использовали
сделал различия в двух абсолютных
номеров, прежде чем создавать среднее значение
затем я объяснил, что это было
почти, но не совсем
определение стандартного отклонения и
то мы строго определяли, где
вы делаете квадратную версию каждого
разницу, а затем выполнить среднее значение
это, а затем выбрать квадратный корень из
это число и что вы выходите и
это стандартное отклонение, которое у вас есть
просто смотрел эпизод веселья
функция я выпускаю каждый понедельник
утро О 800 GMT, но если вы не хотите
чтобы ждать до следующего утра понедельника вы
может проверить этот эпизод
который червь для машинного обучения Google
что у них в подвале есть
определен правильный эпизод для
просматривать прямо сейчас я нахожусь MPJ до
следующий понедельник утром спасибо
Please follow and like us:

Be First to Comment

Добавить комментарий