Лекция 2 – Линейный классификатор

computer vision, machine learning, deep learning

Похожие видео

Текстовая версия

Ну что всем привет значит это вторая лекция курса сейчас я увижу что у меня все завелось. Еще работает и мы начнем извините за технические неполадки так все на месте все тут потерь мы надеялись камеру.

Завести чтобы я вас мог видеть но похоже значит пока не получается ничего разберемся настроим телемост и так значит это вторая лекция и в ней мы постараемся. Погрузиться в один из значит способов решать задачи с помощью. Машинного обучения в деталях до нейросети еще не даем но уже будем так сказать на подступах на подступах так сейчас.

Мне напишут что все в порядке и все работает напишите пожалуйста?

Да значит все ну такой начинаем поехали и так в прошлый раз мы говорили про задачу распознавания. Кошечки если вы помните что такая сложная.

И тяжелая задача что вот мол значит отличить вот такую кошечку по каким-то.

Признакам от которые от которой есть только глаза и силуэт.

Или которое наполовину чем то значит за граждан или вообще вот как бы с этой кошечка вообще непонятно что делать хоть один. Человек видит до что вот есть кошечка или таскать. Разобраться со всем многообразием разных кошечек может быть очень сложно и значит не понятно как это решать ну вот например можно:

Но надеется что можно сделать какой-то алгоритм.

Да то есть например значит вот у нас есть такая кошечкой! Может быть мы это так называемый and dad action то есть нахождение.

Реках вот прогнать или через какой-то такой фильтр и потом найти какие! То здесь уголки или какие-то что-то похожее.

На круге чтобы эти глаза и так далее и так далее и попытаться значит сделать: Там не знаю из и какие-то или что-то такое?

Из и написать алгоритм который поэтому программным образом определит что эта кошечка вот оказывается: Что такие подходы работают плохо те примеры кошечек которые. Мы видели раньше очень тяжело в них запихнуть это то о чем мы говорили в прошлый раз и подходы которые на самом.

Деле работают они значит скорее учатся распознавать кошечек чем просто значит это как училка просто какой-то алгоритм который вот задаёт логику? Что есть кошечка что нет обычно это выглядит следующим образом да вот такая стандартная:

Постановка значит задачей машинного обучения также напоминаем это все говорили раньше что есть некоторые тренировочные: Данные да то есть все начинается с родных и в данных есть какие-то экземпляры или сэмплы.

Вот их от 1 до n мы их сводим.

Какому-то вектору чисел с помощью так называемых сич или признаков до каждому из них есть лейбл в котором говорится что это там собачка или это кошечка. Или что-то такое там вода разных дракон такого жевать собачка второе это окошечко 2 собачка 3 там это самолет.

Вот и у нас есть некоторый такой большой набор таких сэмплов и мы применяем некоторые значит алгоритм. Машинного обучения чтобы в результате сделать модель до которая который на вход можно давать новые картинки и она будет предсказывать. До какого они класса на выход выдавать класс или или инвеста что у нас было задано меткой значит обычно то как мы проверяем успешным:

Или нет у нас есть отдельный набор данные так называемый. Тестовый набор данных то есть тесты тестовые данные у которых тоже значит есть то как мы тестируем нашу модель да значит. Тоже есть мы вытаскиваем из них те же самые но под по тому же принципу те же самые фичи про них.

Мы тоже знаю что из них кошечка что собачка?

И даем ных на ход этой модели модель то эти картинки не видела никогда! Потому что мы никогда их не показывали! Значит в в тренировки то есть вот это вот мне равно здесь.

Нарисую не равно то есть это это разное разное данные и смотрим какой.

Класс она выдаст сравниваем вот с этим до с тем который нас был в тестовых данных.

И если она значит работа и хорошо. Здорово значит мы мы смогли черту натренировать если нет значит алгоритм. Плохой то есть есть всегда боязнь что например этот алгоритм он просто запомнит.

Все вот эти входные до картинки и просто будет по ним запоминаем. Выдавать значит то что он законно а ну и это будет означать что на новых данных это вот эта штука работать не будет да то есть вот?

Вот это обычный такой сеттинг для так называемого супер вальс. Блины или обучение с учителем вот а значит один из примеров data set of как вот выглядит настоящий datasette это datasette сифон он считает. Значит сокращение от к ней дин институт for advanced research или что такое то есть как бы учебного заведения.

Которая подготовила этот datasette это набор картинок из 50000 тренировочных!

Картинок и 10000 тестовых каждый из картинок 32 на 32 пикселя и в нем 10 классов вот все вот эти классы да видите! Значит самолеты автомобили там каши кошечка собачка и так далее и так далее вот вот такие. Картинки там есть они маленькие и я он специально сделан!

Как такой тестовый datasette для значит проверки алгоритмов да то есть. Вот они не очень большие и давлениях не нужно? Так много данных поэтому меня он не такой большой и все можно в память загрузить и там не так много данных?

Чтобы алгоритм обучался то есть это такой игрушечный datasette на котором тем не менее можно проверять! Насколько хорошо работают разные алгоритмы да ну что попробуем как бы его применить.

Нотариат вот как мы применяли это значит не то чтобы на чему-то научиться решить конкретную задачу значит на шлем у вас чего с того.

Что у нас вот есть каждый sample да эта картинка? И нам нужно решить каким образом мы будем извлекать из нее фичи да ну для начнем с такой тривиального способом. Мы просто возьмем все пиксели значит этой картинке да у каждого из этих пикселей три компонента и мы просто их выложим.

В ряд это будет типа 32 на 32 на 3 что должно получаться 3024 да понятно почему три потому что значит. Арчи кгб и а значит в каждом то есть наши фичи картинки будут исключительно пиксели мы не пытаемся ничего продвинутого сделать.

И вот это значит что каждая каждая из наших сэмплов задан. Вот вектором 33 3024 на 1 и соответственно у каждого из них есть значит лейбл метка которая.

Говорит что вот это это ой почему и так сразу пишу значит это корр да эта машина это самолет. Это там площади и мы собираемся значит сделать применить какой-то алгоритм. Машинного обучения сделать модель где дате картинки с тестового набора и посмотреть значит как она даем и посмотреть!

Насколько хорошо оно это делает ну вот первый. Самый простой метод это делать который но как бы он в принципе. Для много нужных вещей применим в других вариациях но он применим и здесь это так называемый.

Метод ближайшего соседа то есть наш план следующий что во время тренировки мы просто запоминаем. Все данные просто запоминаем весь здесь то сайт весь тренировочный. Сосед а во время предсказания мы просто находим ближайший ближайшую картинку и выдаем?

Ее класс то есть вот например вот эти точки все которые. Вот здесь сейчас я попробую переключить ладью вот эти все точки до это какие-то конкретные картинки в таком 3020 и четырехмерном пространстве как заданные своими пикселями? До значениями в своих пикселях и вот красненькие например это машинки сенеки это значит.

Лошади а значит зелененькие то это самолета но я рисую в двумерном пространстве носом. И пространство значит из из из трех тысяч измерений и когда мы хотим узнать новую какую-то нам дали картинку.

И мы хотим узнать его класс мы это будем делать простым способом. Вот так вот мы и сделали она попала вот сюда мы посмотрели о какие.

Ближайшие есть точки нашли самую ближайшую это вот это она была самолетом поэтому.

Вот для этой точке мы скажем что это самолет. А вот для этой точки до мы посмотрим что ближайшая эта машина начнут для этой почки мы выдадим класс?

Что класс эта машина вот такое алгоритм машинного обучения если это значит да дальше нужно нужно всегда. В таких задачах определить метрику расстояние что значит ближайший часто используемые метрики так называемую альту или ремонту это значит просто.

Расстояние взглядывал пространством то есть вот мы берем.

Вот это у нас есть этот вектор вектор 1 и vector2.

И расстояние между ними ты моих по компонент на вычитаем. Возводим в квадрат и извлекаем корень и где вот эти компоненты я помню это значение пикселей значит el1 это другая метрика: Пространство в которой вместо возведения в квадрат и извлечения корня мы вычитаем находим.

Модуль разницы и все их складываем у них есть разные свойства значит одно из них тандер? Устойчивым к поворотам другое неустойчиво но в целом как бы какой из них лучше чаще всего зависит от задачи и напрямую сказать какое.

Лучше какое нет сложно ну вот это такие частые метрики пространства которыми краска которой люди используют если это сделать то получится:

Какие-то результаты вот это значит что будет.

Если мы применим этот алгоритм например вот эта тестовая картинка. Да на которой явно корабль но близкие к ней картинки действительно корабли да потому что на всех этих картинках. Где где есть корабль внизу море верху небо и вот нашлись ближайшие корабли вот с этим кораблем например.

Тоже так неплохо для других классов все они бы не так здорово вот уровень есть такая значит пример картинки самолет: В котором ну вот он видно что он сверху и самолет но похожие картинки.

Это какие-то лошади лягушки и прочее просто папик сильному расстояние точно так же вот есть лошадь например на какой-то таком черном:

По гранде оказывается что много машин и лягушек тоже на черном по гранде. И поэтому ближайшие какие-то разные штуки они и другие не очень не очень полезна я просто в этом алгоритмы просто берем ближайший!

То есть вот типа какой самый близкий был вот того того и берем. Частота и вот этой тоже плохо работает она работает иногда то есть как то есть она даст лучше чем случайная.

Да но в целом работает не очень хорошо одной из причин.

Почему такой алгоритм работает не очень хорошо это что в реальности. Вот внутри этого пространства она не сгруппировано так что они рядом да а некоторые например машины они глубоко. Здесь или глубоко здесь или значит вот граница области она крайне.

Нетривиальная да оно такое сложное в ней много островков. И так далее и например это значит что если вот man случится новый! Сам пол где-то вот в этой окрестности то ближайшие к нему хотя вокруг.

Он явно где-то в самолет нам да вот этом значит области ближайшие? К нему ну просто так получиться что будет значит случайная. . в другом пространстве значит ай да задавайте.

Вопросы вот что я хотел сказать самому началу я забыл сказать можно задавать.

Вопросы в комментариях на ютюбе и она telegram! Смотрю и так далее так далее постараюсь буду останавливаться вот в местах где можно значит задавать вопросы вот значит следующий.

День как легко улучшить этот алгоритм от вот таких проблем до которые я здесь нарисовал это так называемый метод кей ближайших соседей? Или кемер с ней барс что он делает вместо того чтобы найти только одного близкого соседа! Он попробует найти hey blige ближних соседей в этом случае те равно ты то есть он возьмет.

Вот например найдет трех ближайших соседей и выдаст класс которым в котором наиболее часто среди всех. Детей соседней встречается дата здесь вот например для этой . он все равно выдаст самолет.

Хотя самый самая ближняя это какая-то машина потому что он посмотрит на ближайшие три из них два самолета. Одна машина поэтому я пну выход будет самолет и оказывается что этот такой простой значит введение она делает результаты гораздо более стабильным. То есть вот граница области становится смазанный и один какой то значит.

Центр не там не может значит и ее крепко разорвать да вот здесь я попробую. Остановиться и быстренько подождать вопросов значит мне говорили: Что вот я мало жду вопросов потому что ну не у всех там стрим да да buffered а кто-то там задержкой.

Смотрят и так далее и так далее поэтому я могу попробую в следующий раз значит в какую-нибудь. Историю рассказывать что ну вот мол я там не знаю полминуты.

Рассказывал историю что у было время задать.

Вопрос вот такой у меня план какие истории запросто значит рассказывать я еще не знаю наверно буду историй из жизни какой-то будничный что случается.

Deep learning

В в семье так сказать работе и вообще жизни вокруг отличная зима у нас в этот раз калифорнии слушайте. Я приму то самое почти ну почти каждый день футболки можно ходить там не очень я за такую зимы так ну что вопросы можно.

Написать что нет вопросов и тогда мы просто продолжим так мне поправили арифметику и что 32 на 32 до 3 это.

Не 3024 3072 но слышите да да я объявлю нужно короче бонусы объявлять за значит это самое найденные баги вот за найденные баги? Будут дополнительные очки гриффиндора спасибо большое буду это самое. А почему я подумал что 3024 да она бы . только 1000 короче да конечно 3700 извини мы так поехали дальше значит такая постановка.

Задает сразу возникает вопрос а как как не выбрать!

Tei да то есть вот значит сколько мне вокруг брать.

135 и так далее и так далее если какая-то формула как это выбрать вот оказывается что во всех этих алгоритмов обучения.

Очень часто встречается так называемая если это параметры которые ну вы идеального значения нет она зависит от задачи и оказывается!

Что их можно только подбирать то есть универсального рецепта к каким его поставить! Нет и поэтому есть процедура значит как как это как это делать как их правильно. Выбирать такие параметры называются гипер параметры но в отличие от параметров которые изменяются во время тренировки гипер параметры такие до более высокоуровневые.

Значит параметры которые в процессе тренировки оптимальные найти нельзя должен. Задать задать их заранее значит каким образом можно их искать эти образы можно перебирать.

Ну например значит такой какой простой способ.

Можно сделать и первая идея значит мы возьмем просто наш тренировочный datasette! Да вот вот весь тренировочный этот asset прогоним. Значит тренировку несколько раз да то есть вот там когда поэт попробуем с кей 1 кей два и так далее так далее.

Так далее да там не окей 30 прогоним. Несколько раз и посмотрим какой результат лучше значит ну здесь это наверное. Вообще бессмысленно с точки зрения тренировки но в других алгоритмов с этим есть такая.

Большая проблема что как бы то что ты хорошо приблизил тренировочный datasette особого смысла не имеет особенно в значит случае ближайшего.

Ближайших соседей какой бы ты пей не выбрал если прогонишь тренировочные сэмплы через твой значит классификатор тебя всегда будет идеальная точность: До потому что для любого тренировочно для любого кей до тренировочные. Самые значит приближаю оптимальных значений будет всегда один потому что у тебя всегда ближайшим:

К тренировочному значений будет она сама и ты всегда возьмешь его правильный классу более ну такая продвинутая идея. Это как я уже говорил разделить на тренировочную тестовую.

Выборку да и значит попробовать все эти значения сделать кена с этими значениями на тренировочных данных. А потом проверить какая будет точность на тестовом да то есть вот для.

Кей там один у тебя получилось там 30 процентов точностью а для кей там 240 а для кей 3 значит? Опять 2025 ты решила 40 значит надо надо брать четкий равная двум с этим есть тоже:

Еще одна проблема она заключается в том что ты подбираешь свое значение на основе тестового datasette а это означает. Что вот грубо говоря ты можешь подогнать свое значение гипер параметрах под конкретные данные который решил что они тестовые что нет значит. В твоем тестирующие это сайте это означает что если вот например.

Ты сделал такую del а потом выпустил ее в продакшен и в жизни тебе начали поступать новые данные?

То вполне возможно что ты вот попробовал много разных. They и одну из них просто случайно из-за твоего там того что у тебя получилось выбрать для теста было лучше остальных.

Но как бы в реальности она не оптимально да потому что если ты перебрал всегда когда ты перебираешь много случайных. Вариантов у тебя есть вариант за точится именно право грубо говоря над в этот набор который значит тебя у тебя оказался в тестовом сети. Поэтому более правильная значит способ это делать это поделить значит все свои данные на 3 дата сета на три части это так называемые!

Тренировочные данные в людей шер по-русски по-моему. Называется проверочная выборка и тест и когда. Ты тренируешь и выбираешь гипер параметры ты никогда не смотришь на тестовые данные тестовые.

Данные это грубо говоря твоя твой о приближении.

Того значит такие данные к тебе получат придут из реального мира где так ни к чему приспособиться не сможешь да и то как значит ты выбираешь. Гипер параметры это ты тренируешь на тренировочном с этим с разными значениями кей 1 220 в для каждого из них проверяешь точность на валидации!

Он ее выборки выбираешь лучше да из них а потом один раз проверяешь на тесте только один раз с уже за фиксированным значением: Гипер параметров и именно это твоя финальная точность которая.

Является лучшей аппроксимацией реального мира то есть даже если ты выбрал кей который вот за тащился очень сильно каким. То образом так получилось на валютную выборку то что ты проверишь.

На тестовый значит покажет тебе насколько хорошо твоя модель будет работать на новых данных которых она раньше не видела?

Никогда про это можно думать так что когда ты пробуешь много значит вариантов ты некоторых смысле подгоняешь свое значение кей для значит. Любого даташита на котором ты его проверяешь и значит таким образом ты вот подстраиваешься под конкретную специфику.

Того чтоб какие сайты здесь получились поэтому единственный способ померить как она будет:

Вести себя в реальном мире это мол значит попробовать модель на чем-то дна напал что она не видела. Никогда и ты не подбирал параметры чтобы значит приблизить вот этот новый сет в чате вопрос? А какое оптимальное процентное соотношение 33 инвалиды хороший вопрос значит бывает по разному и зависит от задачи такой.

Вот типа значит примерно не примерный разброс обычно это мол где то наверное я бы сказал что-то! Типа 70 на 20 на 10 то есть 70 процентов train значит 20 процентов в людей шин. И 10 процентов тест что то такое но на самом деле бывает бывать большой?

Разброс то есть там 10 процентов туда-сюда может.

Может быть легко то есть бывает так что мол типа у тебя например разбито? 80 процентов на 20 что это тест а этот rain как вот например все фаре а ты еще этот. 80 разбиваешь не примерно там не знаю 6020 для для валидации в чате комментарии.

Что можно добавить что делить выборку лучше не рандомно так чтобы статистика лейбл австрийский древнего ли дальше не было примерно.

Одинаковый да это действительно так есть некоторые маленькие нюансы но вот это хорошая фраке все хорошее начало в целом. Все весят машин lernen он типа если у тебя тест сильно отличается.

От рейна статистика работы ну никак не это самое они нет нет ничего не гарантируются если у тебя ты тренировал. На одном и проверяешь на другом с точностью может произойти что угодно вот значит кроме этого вот кроме.

Вот вот таких методов давайте я расскажу про следующий а потом буду отвечать на другие. Вопросы есть такой метод кросс валидация который позволяет немножко усреднить значит такой эффект что мол если взять только. Ну какой то один конкретный валюту ционный значит типа кусок datasette а то тебе может просто.

В нем не повезти то есть ты случайно взял какой-то такой валидации он эй кусок который очень отличается от train и ничего. Хорошего не сделать поэтому есть такая техника называется кросс валидация которая. Говорит следующим образом а значит сначала ты проверяешь вот например.

То есть к равное 1 ты делаешь не одну модель: От например 5 сначала ты берешь вот эту часть.

Дата сайта тренируешь и проверяешь на вот этой валидации потом ты берешь вот вот эту часть dts это для.

Тренировки и проверяешь в качестве валида ценный выборки берешь другую другую часть нато: Сайта то есть каждая из них это какие-то 20 процентов рандомно и вот и поделил выборку на 5 частей и в каждом.

В каждом так называемым фолд это называется. Вот одна штука такая называется фолд ты берешь разные! 20 процентов от моделей и значит вот делаешь 5 их и как финальную значение для для кей равного единички делаешь значит усредненную over.

Each значит среднюю точность среди этих пяти вот такой механизм называется кросс валидация и после того как ты значит я напомню выбрал: Лучше тень ты тренируешь модель например например.

На всем дата сети или можешь только там если значит только на одном из из фунтов и и его тренировать? От зари зависит от практики и проверяешь один раз на тесте не подстраиваясь под него именно это значит твои так сказать финальный. Перформанс насколько хорошо работает модель так у меня там вопрос.

Да значит мы увидим ее ответим на вопрос есть вопрос в чате а если перемешивать. Datasette и это помогает или нет я не очень понял что такое перемешивать data? Set our и вот в том сеттинге про который мы обсуждаем data set 1 и ты можешь его разбивать на разные части.

Но как бы ни не идет пока вопрос а что если у тебя много the set of типично если тебя много дата сайтов. Про одну задачу объединить их в один с которым больше данных.

Помогает больше данных всегда хорошо лучше чем ты начинаешь удобных.

Путей вот такой процедурой мы выбираем гипер параметры в данном случае. Это значение кей но в других моделях можно может быть много других значений но хорошо вот но вот это значит стандартная кросса. Валидация это один из таких очень стандартных способов как оценить какие-либо.

Параметры лучше ну что поехали дальше поехали дальше:

Ну оказывается что даже если ты подобрал самый лучший значит параметр кей у метода ближайших. Соседей есть какие-то очевидные большие проблемы ну вот например есть такая классная: Есть такие классные примеры значит картинок что оказывается что с точки.

Зрения так называемый элиту distance то есть расстояние между пикселями в krita вам. Пространстве вот между оригиналом и вот этой этой и вот этими всеми тремя.

Картинками одинаковое расстояние хотя они очень разные да то есть вот эта картинка она просто сдвинута чуть-чуть в этой картинке прямо закрашенной части картинки чёрно а вот эта. Картинка она полностью оригинальная да но просто на чуть-чуть потемнее везде вот оказывается что у них одинаковые расстояния до до оригинальной?

Хотя мы как бы как люди мы конечно хорошо? Представляем до что если ты сдвинул от того чтобы. Сдвину картинку у тебя класс не поменяются от того что ты а значит сделали более.

Темный зависит от может больше или меньше поменяться если ты зачерпнул.

Какую-то часть картинки где например было собачка вот то значит. Поменяется очень-очень сильно значит есть вопрос пояснить как считается!

Etudes нас на этих картинках он считается значит очень просто это. Это просто мол вот у нас есть эта картинка и картинка б мы берем и попарно вот есть какие-то?

Пиксели до икс игрек минус 2 икс игрек возводим в квадрат и суммируем по x и y ум и делаем квадратный! Корень вот это это if the distance между этими самыми между двумя картинками то есть вот здесь например.

Между этими этом будет нолик но так как вот это сдвинута то вот например если бы сломать вот этот. И вот этот танец грут разные и в сумме будет будет какое-то значение и оказывается. Что вот для разницы а там то что где-то есть типа а минус.

B ну вот эту оно равно а минус z равно минус да значит: Вопрос в чате можно вопрос на кросс валидации используемых boost надо ли для каждого fold тюнить количество. Деревьев или это переобучение для каждого fold вязать одинаковое!

34 значит ну у нас курс основном значит про не россетти и они про методы стандартного значит машинного обучения я так сходу. Не скажут это нужно спрашивать специалистов про это самое про то который. Отделение гоняют на наши пушки мне кажется что количество деревьев по идее гипер фарами так но я не специалист.

Не специальность можем как-то отдельно значит это самый напишите мне в чатике мне.

Побеседую 5ok значит это первая проблема значит тем что просто. Расстояние метрика расстояние до она такая усредненная и как бы не имеет семантической огромной.

Семантической силы оказывается что очень разные по смыслу трансформации могут легко генерировать одно и то же самое.

Расстояние поэтому значит не очень хорошо это все работает так вторая проблема значит этого этого кино это в том что разумеется он хорошо работает только если.

Вот все эти сэмплы вот эти точки для которых мы знаем классы. Они сколько-то плотно покрывают пространство то есть вот грубо говоря если у тебя точки всего три? То разумеется как бы когда у тебя появляется что-то?

Среднее вот здесь сик его знают куда что к чему относится то есть она работает только если у тебя есть много точек для. Каждого из классов оказывается что чем больше. У тебя размерность пространства тем больше и причем в степенной ну прям степенной значит в степени больше точек нужно чтобы его равномерно.

Machine learning

Покрыть сейчас нас идет речь ну 3070 сколько 2 значит мерный куб и чтобы покрыть такой куб сколько от равномерно. Нужно там типа значит но не знаю 10 или там н.в. 3070 второй!

Степени точек что очень сложно такого количества данных у нас не будет значит и поэтому как бы вот это главное ограничение почему ну такой метод: Плохо взлетает ему нужно очень-очень много данных. Чтобы покрыть даже для картина в 32 на 32 а если мы говорим кита реалистичные картинки хотели которые!

Хотя бы 100 на 100 до то это сразу коли сразу количество размерностей улетает в небесах.

Вот какие то вопросы про отдел есть да нет нет да да нет дальше мы будем говорить про другие методы которые знают. Позволяют обучаться не имею этих проблем поехали значит есть вопрос ради еще более хитрые метрики есть сухими трети расстояния? До есть обучаемые в метрике расстояния когда это неправда когда это вот значит что-то такое обученная.

Под это сету и тогда тогда такие даже простые алгоритмы становятся? Очень мощными но как бы мы забегаем вперед то есть в какой-то момент значит.

Про них поговорим итак следующая наша мысль:

Как как мы можем это значит сделать классификатор это так называемое значит.

Линейный классификатор что это такое мы по-прежнему представляем нашу картинку как длинный: Вектор на 3072 я не буду везде от наверное управлять.

Чисел то есть такой вектор 3000 72 на один да и мы попробуем в качестве классификатора. Использовать матрицу которая вот у нас вот если этот вектор с 3000 72 значений и для каждого. Из классов у нее будет грубо грязи со с какими нужно сложить все эти все эти пиксели.

Да то есть вот для каждого из десяти значит классов которые у нас есть и 10 класс и поэтому кошка собачка. Самолет и прочее прочее то есть она умножит каждый пиксель для каждого класса? На специальный вес сложит это все дело добавит к нему некоторые некоторые боятся то есть некоторое?

Число фиксированная и в результате получит какие-то значит вектор. Из одного на 10 то есть ну какое то значит число для каждого класса.

Да то есть вот например вот это число это будет умножить вот этот вектор. На с весами которые заданы матрицей сложить? Между собой добавить боятся сейчас это написать что это типа x0 сумма по наверное.

X и умножить на v значит и 0 до прибавить by 0 вот это значение:

Верху это вот такая штука а следующее значение это тоже самое только здесь ничка вместо.

Нолика и все это дело выражается матричное умножение мда и так вива! Ленд на тому что сказать значит x умножить на верном она матрицу w добавить б это даст нам вот этот вектор. И мы бы хотели чтобы значит если например эта кошечка.

Да то вот это число соответствующие кошечки больше.

Чем другие а если например то что мы даем то что этот вектор значит представляет собой и за счет самолетик. То вот это число больше чем другие то есть это какие-то такие скорость до или там не знаю не знаю как по русски привести скорость. Хорошо для каждого класса для каждой картинке мы хотим подобрать такие веса и вот такие.

Чтобы выполнялось вот такое условие что если ты уху можешь то получится все что нужно давайте на конкретном примере.

Попробовать это показать вот смотрите предположим но на совсем маленьком вот у нас есть вот такая картиночка. Да и она ну то есть вот из одного канала то есть она всего.

4 на 1 это вот 05 да потому что он серенький это единичка а это нолики и наша конкретная матрица значит w она. Вот но какая-то такая да то есть вот у нее есть два класса которой она.

Предсказывает и для для 1 класса веса вот такие а для вот второго класса мисс а вот такие и значит. Вот такой вектор b да то есть для 1 класса? До что мы делаем мы берем 0 5 умножаем на 11 умножаем на -1 0 умножаем на 0 3 0 умножаем на 2 складываем:

Все это вместе и если я не это сама значит все правильно сделал получается минус на 0. 5 для 2 класса мы берем 0 4 умножаем.

На 0 5 0 2 умножаем на 10 умножаем на 0 минус 1 умножаем на 0 складываем добавляем. Вот это да и просьбы получается 1.4 то есть вот с такими весами мы бы для 1 класса. Получили там -05 а для второго 14 и мы хотим подобрать.

Веса так чтобы чаще были правы чем неправы да то есть значит вот где возвращайся. Ты значит предыдущей картинке есть кошечка мы значит!

Она является большим вектором умножили на матрицу добавили значит вектор получили какие-то чисел ки в которых. В разделе кошечка хочется иметь наибольшее наибольшее число да то есть вот строим вот такую вот такой пластификатор который применяют линейное преобразование.

Для каждого класса и там где значит? В результате получаются большие числу тот плоские. Выбирает про это можно думать как про разделять.

В терминах того пространство которым мы говорили можно думать! Что мы ищем разделяющие плоскости да то есть вот например мы пытаемся значит в этом много в пространстве в котором много. Измерений найти некоторую диппер плоскость которая отделяет машины от не машин или например лошади от от от не лошади и там значит самолеты.

От всех остальных и когда у нас появляется новая . да какая то прям вот! Здесь мы считаем расстояние до этих плоскостей и выбираем ту в качестве класса. Ту плоскость на которой расстояние которое идти публику больше по направлению этой этой плоскости то есть вот например значит.

Для вот такой точки например мы значит решил что это что это наверняка машина а вот для такой например плоскости мы посмотрим.

Окей вот она вот настолько она самолет а вот настолько машина но и похоже что значит она больше машина чем самолет: Поэтому скажем что эта машина давайте его здесь остановлюсь на вопросы при понятно лет на счет как бы. Модель которую мы строим я пока еще не сказал как.

Найти эти леса мы еще на счету это самое с этим мы будем будем разбираться но то что мы пытаемся. Построить понятно какие вам рассказать истории пока я жду вопросов вот например значит? Всех с прошедшим днем святого валентина у вас окружают значит прошел а у нас он значит.

В самом разгаре и у меня значит вопрос? А вот такой метод работает при размерности пространства больше. Двух или трех до на удивление что он до какого-то достаточно большого пространства работает:

Опять же сеттинге обычному шиллинга очень важно какие тысячи сделаешь то есть насколько выразительно это пространстве насколько хорошо там сгруппированные точки но да он работает. В пространство гораздо больше чем 2 и 3 так еще вопросы ну вот я рассказывал что у меня значит ребенок.

Родился именно вот 14 февраля и поэтому каждый:

День у меня после каждой после этого 14 февраля.

На счет происходит совсем по-другому совсем по-другому так ну что но 100 вопросов нет напишите мне стоит. Из это самые зала в лекции вопросов нет транспонирует да я наверно не правильно:

Написал значит да я наверное неправильно написал и у меня там на самом деле x на w плюс б они wx поездах? Потому что да смотрите я давайте я поправлюсь то есть вот. У меня на самом деле предполагалось что это именно то как написано то есть это x умножить на w плюс b и тогда нужно все страсти.

Мне кажется да вот вопрос что делать с точкой которая не машина и не лошадь ага вопрос:

Хороший значит смотрите расстояние которое мы считаем из за того что это линейное расстояние может быть и отрицательным да то есть например вот если. . в этом треугольнике она тут настолько не машина вот настолько не не значит не лошадь и вот настолько не значит не самолет.

И фактически это означает что расстояние до плоскостей отрицательными и мы по-прежнему.

Возьмем наибольшее из них то есть в этом случае мы возьмем вот! Наверное больше из этих отрицательных чисел это значит самая маленькая по модулю поэтому решил что ну ты все-таки!

Ближе к самолету чем чем к остальным поэтому значит ты самолет трети расстояния доплыть до плоскостей они со знаком. Да спасибо что вы это самое напоминаете про размерности. Очень хорошо это легко их перепутки окей ну что то есть как правильно читать боюсь боясь.

Смысле в чем вопрос как произносится боец. Окей ну вот боюсь значит если вопросов нет давайте поговорим про то как конкретно.

Это делать в том смысле что вот как интерпретировать вот эти расстояния у нее состоянии а вот эти значит скорость которые выдаются! Да и как их оптимизировать значит есть такая способ на это смотреть следующим.

Образом вот здесь нужно вспомнить значит теорию.

Вероятности если сделать допущение что для каждого конкретного класса? Для каждого конкретного класса see the class то есть для класса 0 1 и так далее так далее значение?

Внутри этого класса то есть сэмплы внутри этого класса. Распределены по нормальному распределению вот это н это нормальное распределение нормально если вы помните это вот gaussian до такой насчет но здесь многомерной то есть если. Мы считаем что для каждого класса все сэмплы то есть картинки конкретный пикселя этих картинках этих картинок распределены где-то с распредели.

На значит нормальном распределении с некоторым центром и некоторые. Дисперсии которые одинаковы для всех классов это большое допущение. Но предположим и пока его сделать то то можно выразить так называемую условную вероятность я не буду этого это значит.

Выводить но это можно вывести что условная вероятность что класс является нулем при условии что ты видишь. X напоминаю что запись по y с вертикально это y меня от x это условная вероятность то есть вероятность того что ты увидишь y если: Ты уже видишь конкретное значение x то есть условно.

Вероятность что если ты видишь некоторое значение в икса в пикселях то вероятность что он является классом 0 то есть например кошечка или. Самолетиком выражается вот такой формулы это экспонента в которой значит есть грубо говоря. Вектор x умножается на на некоторый другой вектор к нему добавляются некоторые тут на самом деле бисера добавляются какое-то число не делится на сумму грубо?

Говоря для всех других классов для всех других и значит тоже экспонента в которой вектор пикс умножается на и. Ты вектор и к нему прибавляется бен убивать то есть оказывается что вот такую формулу можно интерпретировать. Как вероятность того что сэмпл имеет класс 0 при условии такого такого лица а вот все эти там в ноль так далее.

Вой и это все вектора то есть у них размерность типа там 3072 на 1 это их умножаешь и значит на x получается одно число. Позволив экспоненту и вот значит оказывается что привод этом допущении эти вероятности имеют вот такую форму значит радость!

Всего этого наблюдения в том что вот эти умножения на виктора да с какими то значит сдвигами подозрительно похоже.

На ту матрицу про которую мы говорили да то есть вот смотрите значит если считать что каждый столбец: Этой матрицы это вот например здесь это w0 а вот это by 0 до то то что получается вот здесь получается вот например в этом как мы уже! Говорили до это ну на самом деле x умноженный на w0 + bi 0 а вот в этом столбце да вот вот здесь получился x умножить.

На w 1 + by один то есть если мы считаем что вот этот но каким-то образом значит. Эти иксы должны лежать на значит нормальном распределении то можно интерпретировать финальный выход с небольшим значение большой? Математикой как и вероятность и для того чтобы.

Это сделать нужно всего лишь значит сделать какое-то дополнительное преобразование которое.

Вот если это например там у тебя а 01 ta ta ta ta ta а вот сюда запишет вот в эту в эту штучку запишет.

Она так экспонентов а 0 деленное на сумму по и экспоненты: В а н да и вот это значение будет.

Вероятностью того что при том что ты видишь x то есть при том что у тебя на вход получилась:

Наша наша кошечка что она принадлежит нулевому класс то есть оказывается что если мы эти линейные значит эти эти линейные комбинации весов и сдвигов проведем. С ним вот такую математическую операцию мы можем считать что здесь вот.

У нас было число от минус бесконечности до плюс бесконечности до а вот после лаком провели вот такую операцию мы можем. Считать что это вероятность то есть число от нуля до единицы того что эта картинка. Вход картинка принадлежит нулевому классу и таким образом можем!

Сделать можем вычислить эту вероятность для всех классов то есть вот простым математическим. Значит сложение умножением и x и значит экспоненты мы получили: Возможность интерпретировать значит вот эти линейные значит расстояния:

До плоскостей как вероятность зачем ну че как это нам помогает на как это нам помогает значит. Помогает это ну вот да то есть. Например а мне вот был тут пример чтобы ориса тебя получилось.

0 5 минус 50 0 и единичка то следующим мы вот все из них возводим. В экспоненту и делим на сумму этого дела то здесь получились 0300 105 то есть например когда ты отрицательное число.

Она значит вероятность близко к нулю а если у тебя положительные числа то вот примерно пропорционально но только с экспонентами значит. Этим числам получится итоговой вероятность то есть мы можем?

Сказать что если на вход получилось по дну пришла какая-то картинка у нас есть какие-то веса которые задают значит. То что мы знаем про класс и мы считаем что вероятность что.

Это первый класс 03 что 2 0 что 3 0 1 и что значит последний. 05 и например выбирая максимум из этого мы будем мы считаю что ну наверно. Вот этот самый более самый вероятный да почему.

Это полезно почему это полезно вообще говоря значит.

Наша задача да вот взять наш data set и найти такие. Веса которые лучше всего предсказывают метки которые вот мы вот все эти иксы домножим. Накачивать на какую-то w и нужная нам метка должна.

Быть самый-самый значит это самый самый вероятный и если ты свел это задачи про вероятности то появляется возможность воспользоваться:

Так называемому принципам максимального правдоподобия что он говорит. Он говорит следующее что вот если у тебя есть какие-то данные. До из которые мы значит если у тебя есть какие-то текущие веса из которых мы получили возможность применить значит все прогнать.

Их через все x и эти веса нам выдадут значит вероятность каким классом жить значит там разные разные. X и из данных мы знаем какой класс правильный и принцип максимального правдоподобия говорит следующее значит вот если значит какова вероятность.

С твоими весами встретить вообще весь dataset до вероятно встретить весь dataset. Это перемножении да значит для каждого сэмпла вероятности что когда ты увидел сэмпл жив да он является правильным!

Классом и вай вай же это там провели то лейбл да то есть вот x это теплый онлайн. Лайк это лейбла да то есть он говорит что вероятность. Обнаружить весь dataset с твоими вес предполагаемым весами w да это вероятность что ты встретишь правильный класс в каждом из вот этих случаев и самые лучшие веса.

То есть те которых не вы пытаемся добиться это те которые максимизируют эту вероятность то есть самые правильные. Весах это те в которых вероятность встретить.

Весь dataset больше чем других но это как бы логично да то есть если у тебя веса хорошие и ты часто угадываешь это значит что вероятности правильных правильного. Ответа будут большие а если плохие веса топ маленькие и вот мы наш критерий оптимизации. Выбрать такие леса в которых вы перемножения всех этих вероятностей максимально значит да давайте это самое давайте здесь остановлюсь и попытаемся.

Это значит так сказать чтобы эту всю часть со сложенными значит!

Там матрицами вероятностями взявшимися откуда-то значит что то чтобы было понятно то есть вся эта штука с вероятность она была за тем? Чтобы найти критерий простой оптимизационной задачи которая.

Говорит нам как оптимизировать риса как найти веса который лучше всего описывают задачу и вот так как мы смогли?

Проинтерпретировать наши леса как дают нам возможность выразить вероятности мы говорим. Что мы будем искать такие веса которые максимизируют вероятность увидеть на the сад вы живы там расскажете. Ли камеры нет я не знаю может там все уже это самое кишки по стенкам аудитории или все понятно.

И все понятно это вообще очень здорово едва живые кажется?

Но но все-таки жилые могу какой-то какую-то.

Часть поговорить про поговорить более подробно задавать: Вопрос вопрос давайте вот предыдущую открою можно будет потом пересмотреть я наверно иначе если быть совсем тяжело и могу какие-то ссылки дать которых другие!

Люди пытаются это это объясните такой сложный момент то есть грубо говоря для того чтобы понять какие веса лучше нам нужен критерий. Оптимизации им это тот таким образом мы типа сводим к одному числу которое можно оптимизировать что значит встретить datasette владимировна говорит.

То есть грубо говоря это встретить datasette значит ну на практике у тебя конечно всегда datasette. Только один но предыдущее выражение вот это предыдущее выражение она тебе говорит. Что если у тебя есть какие-то веса то с помощью их можно для любого конкретного конкретной.

Картинки сказать какого как вот с точки зрения этих лесов какова вероятность что значит эта картинка принадлежит какому-то конкретному классу. Да разумеется для этих весов ты можешь в качестве картинок прогнать значит в качестве этих сэмплов прогнать весь свой datasette: И для конкретного значения w вот эта формула она тебе выдаст для там конкретной картинки какой как вы вероятно!

Что у неё class 1 class 0 класс два и так далее так.

Далее единственное что мы говорим это что вот для datasette а которые у тебя есть вероятность:

Правильного класса должна быть максимальной и значит. Мы скажем так то есть для каждого. Для каждого конкретного разумеется вероятность правильного сложно быть максимально а для всего datasette а это перемножении вероятностей отдельных для отдельных.

Классов то есть ближняя вероятность тяжело лекции читать знаете для всего datasette а это перемножении.

Вероятности что каждый конкретный сэмпл принадлежит правильному классу и кедис а лучше остальных которые максимизируют: Эту вероятность в чате вопрос разве нам не важнее чаще попадать в правильный класс пусть даже с некоторой!

Неуверенностью чем достичь максимума и кверху это в некотором смысле правда но оказывается. Что для того чтобы многие методы оптимизации заработали значит нужно свести все оптимизационных задач у к какому-то одному.

Конкретному числу то есть вот у тебя есть некоторые леса и или там некоторые.

Параметры и ты должен сказать вот на твоей дата сайте насколько они хороши да то есть типа. Вот это хорошо хорошо о них описывают или плохо и нужно значит их свести к. Одному числу оказывается что максимум likely худ практически хорошо если ты оптимизируя.

Максим like лихута тебя получится и хорошие значит предсказание на всем дата сайте есть разные.

Детали как может быть можно это делать более эффективны. И так далее так далее так далее. Но вот оказывается что на практике максим:

Лайки вот это такой простой и очень очень мощный хорошо работающий многих случаях.

Способ который позволяет тебе математически к этому подойти если тебя есть формула вероятности. То уже есть что то что можно оптимизировать.

Так ну что никто не говорил что будет просто хотите перерыв я уже тут много это самое много говорю. У шашки по час прошел больше большую часть мы прошли хотите.

Перерос жду ответа жду ответа давайте перерыв?

Ну значит это самый уровня пиши мне пожалуйста в в аудитории хочется перерыва.

Или нет я могу пойти и пять минут чай попить вот вопрос по почему законно полагать что дисперсии одинаково это хороший вопрос не почему!

Оказывается что если предположить что дисперсии одинаково эта формула становится гораздо красивее. Чем если предположить что она не одинакова поэтому это было такое частое допущение для того чтобы сделать математику более красивой. И она это эта функция она там дифференцируется хорошо а она там похоже на максимум и мягким образом.

Вот и ну все стали так делать и оказывается что это не плохо работает с главным.

Образом чтобы значит это самое было более красивая формула. С простой математике наверно можно вопрос не по теме юра напиши мне пожалуйста делаем перерыв или нет давайте сделаем перерыв на 3 минут отлично давайте! Вот сейчас у меня написано 39 минут возвращаемся в там не знаю 43 минуты и слива вы совершенно всего этого:

Не поняли и там по по ходу изложения продолжайте ничего не понимать напишите пожалуйста или мне или юри или подойдите. И спросите и мы попытаемся там знали лично вам объяснить и так далее так далее так далее. Можно показывать вопрос не по теме да про запись и трансляция это самое это все вообще как бы читается.

Курс в университете в значит новосибирском государственном. И значит я думаю я еще думаю что делать потом с лекциями то есть наверное в какой то момент мы можем значит.

Выложить или ещё как-то но пока не знаю пока это все существует. В виде стримов так значит вопрос в задаче в чате задают вопрос как сложно предсказать какую то значит эту самую задачу напиши? Мне пожалуйста про это отдельных на это самый на стриме я не очень.

Хочу это обсуждать можно мне написать там на класс. Черкал или там в мисочках на на ютюбе так что возвращаемся через 3 минуты вопрос wb находит решение оптимизационных задач и именно. Так мы проект будем как раз дальше говорить.

Как выглядит эта оптимизационная задача как ее решать.

Ну что продолжаем или через минуту что нам было там потом ну что давайте я готов начинать напишите мне когда вы тоже будете. Готовы так следующий раз чай можно притащить вот что я думаю надо чтобы не надо было , чтобы мне есть стоял? Но многом надо учиться много научиться вопрос в чате поясню свой.

Вопрос про боюсь google translate считает что надо произносить без остальные считают что боец я слышал оба варианта. В речи я не знаю я вокруг меня все говорят палец ну что давайте продолжать значит:

Так вот мы остановились на том что из значит принципам максимально goha.ru правдоподобия следует.

Критерий для оптимизации весов и борисов да что нужно. Найти такие wb который максимизирует вот такое число значит в оптимизации типично принято менее то есть решать задачу минимизации они максимизации? Поэтому практически люди оптимизируют так называемый негатив лог likely food likely.

Худ тоже мне английский язык вот то есть мы берем вот это вот это значение вот эту вот. Эту штуку и оптимизируем минус логарифм его минус за тем чтобы превратить.

Задачу в задачу минимизации они максимизации а логарифму удобен тем что он превращает вот это произведение в сумму до поэтому.

Значит он равен до минус сумме логарифма этой вероятности и по значит эта штука называется кросс интер пилос вот и вот я просто расписал формулу.

То есть наш оптимизационная задача заключается в том что вот у нас есть datasette в котором! Есть x g и y g&g это вектор 1 на 3072 y же это индекс какой правильный. Класс от нуля число от нуля до десяти не включительно 10 вот и мы строим вот такую большую!

Формулу до минус сумма по вот этим же логарифма на экспоненту в степени значит y житий вектор из w умножить на 1 значит. На их найдут и + bi значит войны той поделенный на сумму значит этот же бежит и умножим на все остальные w плюс плюс: Сбивай да и все это значит под логарифмом то есть наша задача заключается только.

В том чтобы взять вот эту формулу! Да и найти в ней оптимальные w и белль до минимизируя вот это число если мы значит и и решили. Это будут те самые w которые мы считаем лучше всего.

Решают нашу задачу значит у этого есть маленькая и и вот это да она называется лосс faction lose function то есть функция. Ошибки эта функция которую нужно минимизировать вот незадача то сказать тренировки линейного.

Классификатора заключается только в этом есть маленькое маленькая деталь маленькая деталь маленькая.

Деталь заключается в том что обычно помогает добавить так называемую: Регуляризации что это означает вот это фунт в этой формула она в принципе всем хорошо:

Но есть некоторые маленькие проблемы например она не существует единственного решения то есть например можно заметить что если ко всем бить добавить какую-то: Константу да то и так это константа просто. Будет дополнительным множителем е в степени си здесь и здесь да и она просто сократится то есть.

Если все и сдвинуть на константу вот это этот лосс раньше мне изменится поэтому часто значит!

Добавляют к вот этой значит функция ошибки какой-то дополнительный значит дополнительный коэффициент или там компонент который стимулирует. Чтобы вот эти решения было единственным значит обычно он выполняется так что есть значит некоторое. Лямбда который обозначает вес плюс какая-то функция от значит в которую нужно минимизировать:

Да то есть вот ты минимизирует общую сумму. Вот вот этой части и вот этой дополнительной штуки значит простым.

Примером такой функции которая часто используется это так называемая значит альту норм то есть вот. Эта запись и на что означает эта штука она означает что мы.

Возьмём все компоненты значит ежи возведем их квадрат и сложим это вот так называемое значит. Альту норм избит точно так же то есть мы говорим что из разных вариантов мы.

Значит ты предпочитаем те которые являются наименьший нормой для w и для by или андо диктует на то типа значит трейдов между тем что ты хочешь. Оптимизировать чтобы тебя хорошо значит предсказывались метки и вот это вот этот дополнительный значит компонент который позволяет который дает нам значит минимизировать. Эти эти wb кроме того что она делает решение задачи единственным у него еще есть полезные свойства полезные свойства регуляризации?

Они примерно следующего рода вот если у нас есть. Какой-то набор точек да то его приблизить можно многими!

Разными способами например можно сделать вот такую значит вот такую хитрую кривую до которая очень сильно а значит. Вот вот это вот двигается туда-сюда которая проходит через все эти точки то есть их приближает а можно сделать более плавную.

Кривую которая тоже проходит через эти точки и вот такой значит компонент для регуляризации который предпочитает те линейные сервиса у которые значит. Вот например сумма квадратов минимально он оказывается что. Он сглаживает вот такую кривую потому что то как как получаются такие большие выбросы это когда у некоторых!

Весов очень большие веса у некоторых компонентов некоторых очень маленькие а так как если мы говорим что мы предпочитаем те у которых. Сумма квадратов минимально то оказывается что сделать чуть чуть вверх и чуть чуть вниз это у этого будет. Гораздо меньше сумма квадратов чем у много вверх а у другого много вниз и оказывается что вот добавление вот такого компонента сглаживает функцию что возможно хуже приближает!

Может хуже приближать тренировочные данные но будет лучше приближать тестовые данные потому что мы грубо говоря меньше к ним приспособимся. Потому что мы предпочитаем быть гладкими то есть больше соответствующими. Реальным данным то есть наша задача чуть-чуть усложнилась и мы теперь оптимизируем вот такую функцию значит каким образом такие функции оптимизируются:

Оказывается значит довольно простой метод который очень хорошо работает на практике нижние 2 а нижние 2 это просто. Математическая запись значит это самая вот грубо говоря нормы почему там вверху и значит в а да потому что это значит.

Вот смотрите вот такая запись это альту норам которая означает? Что это корень квадратный из суммы ежи w и же а вторая двойка это означает что простота и мы ее берем в квадрате и и вот эти и.

Эти две штуки сокращаются то есть получается.

Вот финальное вот такое выражение то есть вот это. Вот это грубо говоря означает что это элиту норма в квадрате значит только карты визируется это градиентный спуск значит.

Быстро значит на самый простой градиенты спуск креативный спуска такой значит мед мега метод оптимизации. В котором грубо говоря вот если у тебя есть изначально это начиная с некоторого какого-то значения. Точки то есть там значения wb да а потом считаешь градиент то есть производную по большому количеству.

Измерений которыми вот по каждому весу и и вот значит параметру которая на масштабе поддающимся значит функции ошибки генерирует производную. По каждому из этих параметров из этих производных ты делаешь некоторый вектор.

До который является вектором другие лента и меняешь параметры сторону.

Этого вектора оказываешься в новой точке и продолжать правда. Отправят значит продолжаешь эту процедуру дальше дальше дальше то есть по сути это такой метод оптимизации то есть можно. Себе представить что вот у тебя есть какой-то сложный ландшафт в каждой конкретной точке ты можешь.

Посмотреть на только как он локально изменяется да и пойти в сторону в как у в которой он локально значит идет вниз да и продолжать это много?

Раз и постепенно как то вот скатиться будем надеяться в хорошую точку то есть вот типа значит в минимизации разумеется: Зависимости от того как эта поверхность выглядит это может занять. Много мало вообще таскать есть такая проблема локальных минимумов и так далее так далее так далее но вот оказывается:

Что в наших применениях этот метод хорошо работает. То есть в чем заключается мы у нас есть вот эта наша формула значит л довольно большая? И громоздкая мы на каждом шаге считаем градиент по вот этой матрицы?

W для функции f и делаем значит. Делаем шаг в противоположную сторону градиент потому что градиент.

Показывает куда функции растет а мы хотим пойти вниз мы умножаем его на фиксированное число и это наш новый вектор.

W и то же самое делаем с бы и просто продолжаем это делать пока так сказать процесс куда-то: Идет и вот это значение у уменьшается.

До это такой общий очень общий метод который говорит что новым если у тебя есть!

Какая-то формула для l она будет удачных мест будет работать?

Для значит любой дифференцируемой функции вычислять этот градиент. Можно разными способами на практике один из очень простых способов для в реализации это такой способ значит сексуальной где фрэнсис? Или что там конечных супа русскими что такое не знаю но идея назначит очень простая что вот у нас есть.

Какие-то параметры по по ним нужно сделать другие and значит будем вычислять производную по каждому из параметров отдельно и вычислять мы ее производную: Будем вот таким образом мы значит вот у нас у этого у этого конкретного параметра есть какое-то значение. X мы посчитаем функцию от x плюс некоторая маленькая все минус функцию от x плюс здесь минус значит.

То есть мы посчитали функцию в которой вот в этом большом x удачно в этом большом w да значит помимо?

Вот у этого одной маленькой компоненты было добавлено эпсилон посчитали это значение до потом посчитали его же когда у тут только этой одной маленькой. Компонент очки выделен значит вышли на какое-то значит опцион и вычли 1 из 2 поделили: На 2 обзор и получили приближение чему равна производная?

По вот этому маленькому одному кирпичику этой функции разумеется чтобы найти грань полный градиента есть все производные нужно это сделать по каждому. Кирпичику то есть по каждому из параметров.

То есть это не очень значит но и включи по б точно также значит это не очень вы чувствительно. Эффективно но зато очень просто реализовать до другой способ как это можно делать это значит аналитический градиент то есть мы берем. И вот вся эта функция до которую нам нужно оптимизировать она вообще?

Говоря аналитическая то есть мол у нее есть формула и можно найти ее градиент то есть производную по значит. К что потом каждому элемент u w расписать эту формулу и и применять. Это значительно более эффективно но ну как бы математика да то есть нужно это выводить и так далее . значит это это нужно.

Как бы не ошибиться в математике счастью значит этот метод можно эти вещи можно определить можно объединить то есть можно реализовать неэффективный медленный? Но очень простой в реализации способ вычислять значит градиент с помощью конечных разностей а потом вывести математическую формулу и с помощью! Предыдущего метода и и проверить то есть обычно.

Когда люди вычисли вычисляют и значит делают какие то значит математические выводы ты после этого в каких-то.

Случайных точках проверяешь свою формулу с помощью предыдущего метода который. Очень просто реализовать дальше я собирался показать и провести значит действительно то как считается градиент вот этой:

Функции но наверно у меня времени на это особо нет давайте я это. Самое вот представь себя задача такая что вот есть вот такая функция w и нужно посчитать провести? Математику какой у нее будет градиент и наверно придется чтобы юра это сделал.

На семинаре у меня тут вот есть несколько значит слайдов я быстренько проведу что мои разбиваем. На две части да и еще градиент для них для каждой из них отдельно сначала вот для этой у меня там какой-то. Вывод я занимаюсь насчет юра проведет его на семинаре и для этой там значит!

Он чуть-чуть посложнее но там оказывается что есть очень красивая. Формула что производная значит по вот этой части красин? Терпи из из автомакс она правда просто saw the maximum минус единичка в правильно классе и после этого значит можно расписать!

И всю формулу и так далее так далее он там сокращается все очень классно: И так далее ведет и там это можно потом объяснить.

Как векторы в общем не надо в это все вникаете юра пройдет это все на семинарию и вот получается финальная формула. Которую я вывел но толком не проверял поэтому возможно уже есть какая то какая то ошибка но значит.

Численный градиент вас проверь значит последнее что я хотел я рассказать последнюю деталь про тренировку это то что. То что мы врага до этого говорили это так называемый градиентный спуск на практике используют вариацию этого градиентного спуска который. Называется стохастический градиентный спуск или с такой стикер один descent в чем заключается проблема вот этой формулы для или до проблема.

В этой формуле для или которую нам нужно считать чтобы значит сделать градиент и все остальное. Это что вне есть вот эта сумма пожил эту сумму позже эта сумма по всем элементам datasette а то есть чтобы. Ее вообще даже посчитать нужно пройти по всем там 50 тысяч 50 тысячам элементом datasette.

А и если ты производную раз пишешь там тоже нужно будет суммировать по всем элементам.

Datasette а это очень медленно то есть посчитать такой как предмет: На спуске нужно сделать много шагов чтобы дойти до до какого? То значит разумного результата и если будем каждый:

Шаг делать на всех там на всем на всех 50 тысячах а не миллионы картинок этот! Ну зовет безумное время ними ничего никогда не не сделали поэтому есть такая техника для градиентного спуска который позволяет отдела.

Радикально ускорять и оно заключается в общем что мы на каждом? Шаге градиентного спуска делаем это не для всех 50 тысяч а случайно выбираем например. 128 или 64 ну какое-то такое не очень большое число которые мы назовем мини бо чем то есть мы возьмем!

Некоторые из всего datasette а случайный батчатом 28 экземпляров да и будем считать лосс и градиент по нему только. Для этих 128 то есть мы этот 128 точно так же там вот умножено на w плюс b и так далее. И так далее и у этого есть вообще очень классная значит интерпретация:

Того какого рода что как бы раньше мы говорили что наш вектор x да вот это вот когда каждый наш вектор. X он там один на значит вот каждый вектор x был один на 3072 а вот весь этот мини бар чудо можно считать что это такая. Матрица 128 на 3072 и ее по-прежнему можно умножить на w d w эта матрица значит я напомню 3072 на 10 то есть!

Если ты вот это умножив то в результате здесь? Будет вектор 128 на 10 ты каждому из них можешь добавить значит by и получить! Сразу результат для для всех 128 то есть это твой финальный результат будет 128 на 10 то есть для каждого.

Дополнительные материалы

Хештеги:
Поделиться или сохранить к себе:
Моя Мотивация