Джеффри Хинтон рассказывает, как разочарование в нейробиологии и философии привело его в искусственный интеллект, почему встреча с Ильёй Суцкевером изменила направление его исследований и как большие модели — вопреки скептикам — действительно учатся понимать смысл, находить неожиданные аналогии и рассуждать. Он объясняет, зачем ИИ нужна мультимодальность, почему мозг работает на множестве временных шкал, а нейросети — только на двух, и что нам дадут «быстрые веса». Хинтон размышляет о будущем ИИ в медицине, науке и политике, о цифровом бессмертии моделей, рисках для общества и о том, чем за десятилетия исследований он гордится больше всего — и в чём ошибался.
Источник: https://youtu.be/n4IQOBka8bc?si=yPcLwV4PSmuJCHlD
Я веду канал "AI из первых уст", потому что хочу сам слушать первоисточники по-русски - людей, которые сейчас и есть ИИ-индустрия: Альтман, Цукерберг, Хуанг, Амодей. Поэтому перевожу и выкладываю сюда, чтобы и вы могли слушать их в наушниках без английского и без искажений. Буду рад, если подпишитесь на канал.
Мой телеграм канал: https://t.me/egoshin_kedprof
00:00 – Не мозг и не философия: как Хинтон пришёл к ИИ
05:05 – Илья стучится в дверь: рождение легендарного дуэта
08:56 – “Это не автодополнение”: зачем моделям понимать смысл
11:30 – GPT-4, компост и атомная бомба: когда ИИ видит то, что не видим мы
22:58 – Мозг против нейросетей: быстрые веса и наша смертность
30:42 – Чувства, сознание и робот, который “разозлился”
37:52 – Врачи-ИИ, новые материалы и диктаторы с нейросетями
45:00 – главная гордость Хинтона
Вы много размышляли о том, как выбирать талантливых людей или это в основном на интуитивном уровне? Или я просто пришёл, и вы подумали: "Этот парень толковый, давай работать вместе и всё". Или вы действительно много думали об этом? Мы запускаем запись. Да, давай. Да, давай запишем. Звук работает. Я помню, как впервые приехал в Карнегимелан из Англии. В Англии в исследовательском подразделении, как только наступало 6 часов, все тут же шли пить в пап. Карнегиме. Помню, через несколько недель после приезда, в субботу вечером, у меня ещё не было друзей. Я не знал, чем заняться. И я решил пойти в лабораторию попрограммировать, потому что у меня была лиспмашина, а работать с ней из дома было невозможно. Так что я пришёл в лабораторию примерно в 9:00 вечера в субботу, и она кишела людьми. Там были все студенты. Они были там, потому что, по их мнению, затем, над чем они работали, было будущее. Они были уверены, что то, что они сделают дальше, изменит ход компьютерных наук. Это было настолько не похоже на Англию. Было очень необычно. Вернёмся в самое начало. Джефф, Кембридж - попытка понять мозг. Каково это было? Это было очень разочаровывающе. Я изучал физиологию, и в летнем семестре нам должны были рассказать, как работает мозг, но нам объяснили только то, как нейроны проводят потенциалы действия. Это очень интересно, но совершенно не объясняет, как работает мозг. Поэтому это было крайне разочаровывающе. Я поменял специальность на философию, думал, там нам расскажут, как работает сознание, и опять разочарование. В конечном итоге я оказался в Эдинбурге, где стал изучать и это было интереснее. По крайней мере, там можно было что-то моделировать и проверять свои теории. Вы помните, что именно тогда вас заинтересовало в Ии какая-то статья, человек, который познакомил вас с этой идеей. Думаю, на меня тогда очень повлияла книга Дональда Хеба. Он был глубоко увлечён тем, как обучаются связи в нейронных сетях. Я также прочёл книгу Джона Фон Неймона, который был очень заинтересован в том, как вычисляет мозг и чем он отличается от обычных компьютеров. Это тогда у вас появилось убеждение, что эти идеи сработают. Какие были предчувствия в тот эбургский период? Мне казалось, должен существовать способ, которым мозг обучается. И очевидно, что это не набор заранее запрограммированных правил и логических выводов. Это с самого начала казалось мне абсурдным. Поэтому нужно было понять, как мозг обучается изменять связи в нейронной сети, чтобы выполнять сложные функции. И Фон Неймон в это верил, и Тюринг в это верил. Фон Неймон и Тюринг прекрасно разбирались в логике, но при этом не считали, что именно логический подход объясняет работу мозга. И каким было соотношение между изучением идей из нейробиологии и тем, что вы просто пытались разрабатывать хорошие алгоритмы и сколько вдохновения вы черпали из нейронауки? Я никогда особо не увлекался нейробиологией. Меня всегда вдохновляло то, что я узнал о работе мозга. Существует множество нейронов, которые выполняют относительно простые операции. Они нелинейны, но они собирают входные данные, взвешивают их, а затем выдают результат, который зависит от этих взвешенных входных данных. И вопрос заключается в том, как изменить эти веса, чтобы всё это работало хорошо. Кажется, что это довольно простой вопрос. Какие сотрудничества того периода вы вспоминаете? Главная моя научная коллаборация в Карнеге Мелн была с человеком, который там вообще не работал. Я много взаимодействовал с Тери Синовский из университета Джона Хопкинса в Балтимаре. Примерно раз в месяц он ехал в Питтсбург или я ехал в Балтимор 250 миль. И мы проводили вместе выходные, работая над так называемыми Балтиморскими машинами. Это было потрясающее сотрудничество. Мы оба были уверены, что нашли способ, которым работает мозг. Это были самые захватывающие исследования в моей жизни. И мы получили много интересных технических результатов. Хотя сейчас я думаю, что это всё же не то, как работает мозг. У меня также была отличная совместная работа с Питером Брауном, замечательным статистиком. Он занимался распознаванием речи в IBM, а затем поступил в Карнеги Мемелан в докторантуру, будучи уже довольно зрелым специалистом. Уже тогда он много знал. Он многому меня научил в области речи. И по сути он научил меня скрытым марковским моделям. Думаю, я узнал от него больше, чем он от меня. Он был тот самый идеальный студент. И когда он рассказывал мне о скрытых моделях Маркова, я в то время занимался обратным распространением ошибки со скрытыми слоями. Только тогда они ещё не назывались скрытыми слоями. И я подумал, что название, которое используется в скрытых моделях Маркова, отлично подходит для переменных, про которые не знаешь, что они там делают. Так что именно оттуда и пошло название скрытые в нейронных сетях. Мы с Питером решили, что это отличное название для скрытых слоёв в нейросетях. Я многому научился
Илья стучится в дверь: рождение легендарного дуэта
от Питера в области речи. Вернёмся к моменту, когда Илья впервые появился у вас в офисе. Я сидел в офисе, вероятно, в воскресенье и программировал. И тут раздаётся стук в дверь, но необычный, какой-то срочный, настойчивый. Я открываю дверь, там стоит молодой студент, и он говорит, что летом жарит картошку фри, но гораздо больше хотел бы работать в моей лаборатории. Я сказал: "Ну, запишись на приём и поговорим". А он: "Как насчёт сейчас? " И это очень в духе Ильи. Мы немного поговорили, и я дал ему почитать статью, ту самую публикацию в Нетчер про обратное распространение ошибки. Мы договорились встретиться через неделю, и он вернулся, сказав: "Я не понял". Я сильно разочаровался. Мне он казался очень толковым парнем, а это всего лишь правило дифференцирования сложной функции. Ничего сложного. И он добавил: "Нет, правила я понял. Я не понимаю, почему вы не передаёте градиент оптимизатору разумной функции. Над этим мы ломали голову несколько лет. Так у нас всё и происходило с Ильёй. У него всегда была очень хорошая интуиция. Как вы думаете, что способствовало развитию этой интуиции у Илии? Я не знаю. Думаю, он всегда думал самостоятельно. Он с юности интересовался и он, очевидно, очень хорошо владеет математикой, но определить источник его интуиции сложно. И как выглядело ваше сотрудничество? Что делали вы? Что делал Илья? Это было очень весело. Помню один случай. Мы пытались сделать довольно сложную вещь: строить карты данных, где у меня была своего рода смесь моделей. То есть можно было взять один и тот же набор сходств и построить две карты так на одно из них слово банк, банк или берег реки, располагалось бы близко к слову грид- жадность, а на другой близко к слову ривер, река. Потому что на одной карте оно не может быть одновременно близко к обоям, ведь река и жадность находятся далеко друг от друга. Поэтому у нас была смесь карт, и мы делали это в Matтlлаб. Это требовало значительной переработки кода, чтобы всё правильно перемножалось матрицами. И Илье это надоело. Он пришёл однажды и говорит: "Я напишу интерфейс для Matlab, чтобы программировать на другом языке, а потом будет что-то, что просто конвертирует всё в Matlab". Я сказал: "Нет, Илья, это займёт у тебя месяц. Нам нужно продолжать проект. Не отвлекайся". А Илья сказал: "Всё нормально. Я сделал это сегодня утром". Это невероятно. И за все эти годы главным сдвигом были не только алгоритмы. но и масштаб. Как вы воспринимали рост масштаба с течением времени? У Ильи очень рано появилась эта интуиция. Он всегда говорил это: "Просто увеличьте это, и оно будет работать лучше". А я считал, что это немного похоже на уход от проблемы, что нужны и новые идеи. Оказалось, что Илья в основном был прав, новые идеи помогают. Например, трансформеры очень помогли. Но на самом деле всё решило увеличение масштаба данных и вычислений. Тогда мы даже представить себе не могли, что компьютеры станут быстрее в миллиард раз. Мы думали: "Ну, может быть, максимум они ускорятся раз в 100". Мы пытались придумывать умные идеи, задачи, которые бы сами решились, если бы у нас были данные и вычисления побольше. Где-то в 2011 году Илья, другой аспирант Джеймс Мартинс, и я, написали статью о предсказании на уровне символов. Мы взяли Википедию и попытались предсказать следующий HTML-символ. И это работало удивительно хорошо. Мы постоянно поражались тому, насколько хорошо это работает. Мы использовали продвинутый оптимизатор на GPU, и мы никак не могли поверить, что модель что-то действительно понимает, но выглядело так, будто понимает, и это казалось невероятным. Можете объяснить
“Это не автодополнение”: зачем моделям понимать смысл
как обучаются такие модели, чтобы предсказывать следующее слово, и почему это неправильный способ о них думать? На самом деле, я не думаю, что это неправильный способ. Более того, я думаю, что создал первую языковую модель на нейронных сетях, которая использовала эмбединги и обратное распространение ошибки. Данные были самые простые, просто триплеты. Модель преобразовывала каждый символ в эмбединг, а затем эти эмбединги взаимодействовали, чтобы предсказать эмбединг следующего символа, а уже по нему сам следующий символ. И затем происходило обратное распространение через весь этот процесс. и я показал, что это можно обобщить. Спустя лет 10 Йошуа Бенджо использовал очень похожую сеть и показал, что она работает с настоящим текстом. И ещё лет через 10 лингвисты наконец поверили в эмбединге. Процесс был медленным. Причина, по которой я считаю, что это не просто предсказание следующего символа, вот в чём. Если вы спрашиваете, что нужно, чтобы предсказать следующий символ, особенно если вы задаёте мне вопрос и первое слово моего ответа: "И есть следующий символ", то для того, чтобы предсказать следующий символ, я должен понять вопрос. Поэтому я считаю, что предсказание следующего символа - это совсем не то же самое, что и старомодная функция автодополнения. В старых автодополнениях хранились триплеты слов. Если встречалась пара слов, система смотрела, какое слово чаще всего идёт третьим. И так предсказывала следующий символ. Многие до сих пор думают, что так и работают современные модели, но они больше вообще так не работают. Чтобы предсказать следующий символ, модель должна понять, что было сказано. Мне кажется, вы заставляете модель понимать, требуя от неё предсказания следующего символа. Я думаю, что она понимает примерно так же, как мы. Многие говорят, это не как человек. Они просто подбирают следующий токен. Они не рассуждают. Но на самом деле, чтобы предсказать правильный следующий символ, нужно рассуждать. И мы уже видим, что если сделать модели достаточно большими, даже без специальных механизмов для рассуждений, они способны рассуждать, и по мере увеличения масштаба они смогут делать это всё лучше и лучше. Как вы думаете, я сейчас делаю что-то иное, кроме предсказания следующего символа? Думаю, так вы и учитесь. Вы предсказываете следующий кадр, вы предсказываете следующий звук. И мне кажется, что это вполне правдоподобная теория того, как мозг обучается, что позволяет этим моделям обучаться такому широкому спектру областей знаний. Большие языковые модели ищут общие структуры, и найдя их, они могут кодировать информацию через эти общие структуры. Это намного эффективнее. Приведу пример.
GPT-4, компост и атомная бомба: когда ИИ видит то, что не видим мы
Если вы спросите GPT4, почему компостная куча похожа на атомную бомбу? Большинство людей не смогут ответить. Они считают, что эти вещи совершенно разные. Но GPT4 скажет: "Да, энергетические масштабы разные, временные масштабы разные, но общее у них то, что когда компостная куча нагревается, она начинает выделять тепло быстрее. И когда атомная бомба производит больше нейтронов, она начинает производить их ещё быстрее. То есть модель понимает цепную реакцию, и я считаю, что она действительно поняла, что и компостная куча, и атомная бомба - это формы цепной реакции. Она использует это понимание, чтобы сжать всю информацию в свои веса. И если она делает это, значит, она делает это для сотен вещей, аналогии между которыми мы ещё не заметили, но она уже. А это и есть источник творчества, способность видеть аналогии там, где мы их не видим. И я думаю, что GPT4, став больше, будет очень творческой. Идея о том, что она просто пересобирает выученные текст и создаёт коллаж, совершенно неверна. Она будет, как мне кажется, даже более творческой, чем люди. То есть вы считаете, что она не просто повторяет накопленные людьми знания, но может пойти и дальше. Пока мы почти этого не видим. Да, появляются примеры, но в целом мы пока остаёмся в рамках текущего уровня науки, что позволит моделям шагнуть за эти пределы. Мы уже видели такое в более узких областях. Например, Alльфha GO в той знаменитой партии с Лисидолем сделала на тридцать седьмом ходу ход, который все эксперты сочли ошибкой, а потом признали блестящим. То есть это была творческая идея внутриограниченной области. И я думаю, что подобного будет гораздо больше, когда модели станут ещё крупнее. Но разница в том, что Alpha GO использовала обучение с подкреплением, и именно это позволило ей выйти за рамки. Она начала с имитации игры людей, а затем с помощью самоигры ушла далеко вперёд. Как вы считаете, это и есть недостающий компонент современных больших моделей. Думаю, вполне возможно, что да. Самаигра в Alльpha Go и Alльpha Zero это важная часть того, почему они смогли создавать творческие ходы. Но я не считаю, что это абсолютно необходимо. Есть небольшой эксперимент, который я когда-то проводил. Вы обучаете нейросеть распознавать рукописные цифры. Люблю этот пример. Это премьер Мнист. И вы даёте ей обучающие данные, где половина ответов неправильные. И вопрос, насколько хорошо она сможет научиться? Причём половина ответов всегда неправильные. То есть нельзя усреднить ошибку, когда одна и та же картинка иногда имеет правильную, а иногда неправильную метку. Если картинка плохая, она всегда с неправильной меткой. То есть в данных 50% ошибок. Но если вы обучите обратному распространению, то ошибка снизится до 5% или менее. То есть из плохо размеченных данных она получает результат, который значительно лучше самих данных. Она способна понять, что часть данных неправильная, и поэтому умные студенты могут быть умнее своих научных руководителей. Руководитель говорит им кучу вещей, и половину студент считает ерундой, вторую половину принимает и в итоге становится умнее руководителя. Так что большие нейросети могут работать гораздо лучше, чем их обучающие данные, и большинство людей этого не понимают. Тогда как, по-вашему, модели будут учиться рассуждению? Есть подход, когда поверхмодели добавляют эвристики, например, как это сейчас активно делается в исследованиях, цепочки рассуждения и когда модель сама себе возвращает собственное объяснение. Другой путь, чтобы рассуждение появлялось внутри самой модели по мере масштабирования. Что вы думаете на этот счёт? Моя интуиция подсказывает, что по мере масштабирования моделей они начинают лучше рассуждать. И если спросить, как работаем мы, люди, то, грубо говоря, у нас есть интуиция, и мы можем рассуждать. И мы используем рассуждение, чтобы корректировать свою интуицию. Конечно, мы используем интуицию и во время рассуждения, чтобы само рассуждение происходило. Но если вывод рассуждения противоречит нашей интуиции, мы понимаем, что интуицию нужно пересмотреть. Это очень похоже на AlphaGo Alpha Zero, где есть функция оценки, которая просто смотрит на позицию на доске и говорит, насколько она хороша для меня. Но потом вы делаете прогон Монтекарло и получаете более точное понимание и можете скорректировать функцию оценки. То есть можно тренировать её, заставляя согласовываться с результатами рассуждений. Я думаю, что большие языковые модели должны начать делать то же самое, тренировать своё необработанное чутьё о том, что должно быть следующим на основе рассуждений, понимая, что первоначальное предчувствие было неверным. Так модели могут получать больше обучающих данных, чем просто копирование того, что делают люди. Именно поэтому Alpha Go смог сделать то самое креативное тридцать седьмое движение. Оно использовало рассуждение, чтобы проверить, какой ход должен быть правильным. И что вы думаете о мультимодальности? Мы говорили об аналогиях, и часто эти аналогии намного шире того, что видим мы. Модели находят аналогии, которые выходят далеко за пределы человеческого восприятия на уровнях абстракции, которые мы, возможно, никогда не сможем понять. А теперь, когда мы добавляем изображение, видео и звук, как это изменит модели и как это изменит аналогии, которые они могут создавать? Думаю, это изменит очень многое. модели станут гораздо лучше понимать пространственные вещи, например. Только по языку довольно сложно понять некоторые пространственные отношения. Хотя, что удивительно, GPT4 мог это делать ещё до мультимодальности, но когда модель становится мультимодальной, если она способна видеть и тянуться к предметам, она будет намного лучше понимать объекты, если сможет поднимать их, поворачивать и так далее. То есть, хотя из языка можно узнать невероятно много, учиться намного легче, если модель мультимодальная. И на самом деле тогда ей нужно меньше языка. На YouTube огромное количество видео, по которым можно предсказывать следующий кадр. Поэтому мультимодальные модели, очевидно, станут доминирующими. Так можно получать больше данных, и для обучения требуется меньше текста. Так что действительно есть философский момент, что можно обучить очень хорошую модель только из языка. Но гораздо проще выучить её из нашей мультимодальной системы. И как это повлияет на способность модели рассуждать? Это заметно улучшит пространственное рассуждение. Например, рассуждение о том, что произойдёт, если поднять объект. А если модель действительно сможет поднимать объекты, она получит массу обучающих данных, которые ей помогут. Как вы считаете, человеческий мозг эволюционировал так, чтобы хорошо работать с языком? Или язык подходить человеческому мозгу? Думаю, вопрос о том, эволюционировал ли язык под мозг или мозг под язык, очень хороший вопрос. И думаю, оба процесса происходили одновременно. Раньше я считал, что мы можем выполнять значительную часть когнитивной деятельности без языка вообще. Сейчас я немного изменил своё мнение. И позвольте привести три разных взгляда на язык и его отношение к мышлению. Первый - это старомодный символический взгляд. Мышление - это манипуляция строками символов в неком логическом, очищенном языке без неоднозначности, с применением правил вывода. И это и есть мышление, символические операции над строками. Противоположный взгляд, что внутри существуют только векторы. Символы поступают извне. Вы преобразуете их в большие векторы, и вся внутренняя работа выполняется векторами, а затем при выводе снова превращается в символы. Это было популярно в машинном переводе примерно в 2014 году, когда рекурентные сети накапливали скрытое состояние. Большой вектор, содержащий смысл предложения. Это называли вектором мысли. Это второй взгляд. Язык превращается в большой вектор, который совершенно не похож на язык, и мышление происходит внутри. Но есть третий взгляд, который я поддерживаю сейчас. Символы преобразуются в эмбединге, затем проходят через несколько уровней преобразования, формируя богатые векторные представления. Но эти представления всё ещё привязаны к символам. У вас есть большой вектор для одного символа и большой вектор для другого. И эти векторы взаимодействуют, чтобы породить вектор для следующего символа. И это и есть понимание. Понимание - это знак того, как преобразовать символы в эти векторы и как элементы векторов должны взаимодействовать, чтобы предсказать вектор следующего символа. И это понимание как в больших языковых моделях, так и в наших мозгах. Это промежуточная позиция. Вы сохраняете символы, но интерпретируете их в виде больших векторов. Именно в векторах всё знание, а не в правилах. Но это не означает, что вы полностью уходите от символа. Вы просто превращаете символы в большие векторы, сохраняя их поверхностную структуру. Именно так работают эти модели. И мне всё больше кажется, что это наиболее правдоподобная модель человеческого мышления. Подпишись прямо сейчас на мой Telegram-канал по ссылке в описании. Я подготовил для тебя топ-три материала, которые, на мой взгляд, должен знать каждый. Первое, карта сотни топовых AI стартапов - это будущее на одной картинке. Второе- прогноз от инсайдера из Openi, который ещё до появления CH GPT предсказал всё, что сейчас происходит с неронками. И вот в этом году он выпустил новый прогноз до двадцать седьмого года. И третье, самое мощное - это мой разбор эссе основателя компании Anроopic, который по сути второй человек в мире искусственного интеллекта. Он по полочкам разложил, что будет происходить в мире ближайшие 5 лет, и главное, каким будет универсальный AI, которого все так боятся или ждут. Переходи по ссылке в описании. Вы были одним из первых, кто предложил использовать GPU, и Дженсон обожает вас за это. В 2009 вы сказали ему, что это может быть отличная идея для обучения нейросетей. Вернёмся к тому раннему интуитивному пониманию использования GPU для обучения нейронных сетей. На самом деле, примерно в 2006 году мой бывший аспирант Рик Залески, отличный специалист по компьютерному зрению, сказал мне на одной встрече: "Тебе стоит подумать об использовании графических карт. Они очень хороши в умножении матриц. А то, что ты делаешь - это почти полностью умножение матриц". Я подумал об этом, и потом мы узнали о системах Tтеesla с четырьмя GPU.
Мозг против нейросетей: быстрые веса и наша смертность
Сначала мы купили игровые GPU и обнаружили, что они ускоряют работу в 30 раз. Затем купили систему Tтеesla с четырьмя GPU, обучали на ней модели для распознавания речи, и это работало отлично. В 2009 году я выступал на NIPS и сказал тысячам исследователей машинного обучения. Всем нужно купить GPU от Nvidia. Это будущее. Они вам нужны для машинного обучения. Потом я отправил письмо в Nvidia. Я сказал тысячам исследователей купить ваши платы. Не могли бы вы прислать мне одну бесплатно? Они сказали: "Нет". Хотя не сказали: "Нет, просто проигнорировали". Но когда я позже рассказал эту историю Джейнсону, он дал мне одну бесплатно. Это отлично. Мне кажется, интересно и то, как GPU эволюционировали вместе с полем исследований. Куда, на ваш взгляд, нам стоит двигаться дальше в вычислениях? Последние пару лет моей работы в Google я размышлял о том, как создать аналоговые вычисления. То есть вместо того, чтобы тратить мегаватты, использовать порядка 30 Вт, как мозг и запускать большие языковые модели на аналоговом железе. У меня так и не получилось это реализовать, но я начал гораздо сильнее ценить цифровые вычисления. Если ты используешь такие низкоэнергетические аналоговые вычисления, то каждый чип будет немного отличаться. И идея о том, что обучение должно использовать уникальные свойства конкретного железа. У людей так и происходит. Наши мозги все разные. Поэтому мы не можем взять веса из твоего мозга и перенести их в мой. Аппаратное обеспечение разное, свойства нейронов разные. И обучение устроено так, чтобы использовать именно эти различия. Поэтому мы смертны в том смысле, что веса моего мозга не годятся ни для какого другого мозга. Когда я умру, эти веса бесполезны. Мы можем передавать информацию друг другу, но довольно неэффективно. Я произвожу предложение, а ты меняешь свои веса так, чтобы ты сказал то же самое. Это называется дистилляцией, но это очень неэффективный способ передачи знаний. А цифровые системы бессмертны. Если у тебя есть веса, ты можешь выбросить компьютер, просто сохранить все веса где-нибудь на ленте, а потом построить другой компьютер, загрузить туда те же веса, и если он цифровой, он будет вычислять точно то же, что и предыдущая система. Цифровые системы могут делиться весами, и это невероятно эффективно. Если у тебя есть куча цифровых систем, и каждая делает по чуть-чуть обучение, начиная с одинаковых весов, затем они снова делятся весами, то каждая знает всё, что узнали остальные. Мы так не умеем. Поэтому в плане обмена знаниями они намного превосходят нас. Многие идеи, которые сейчас используются, на самом деле очень старые. Они существуют в нейронауке уже давно. Как ты думаешь, какие идеи нам ещё предстоит применить в современных системах? Одно большое направление, по котором нам ещё нужно догнать нейронауку, это временные масштабы измерений. В большинстве нейросетей есть два масштаба: быстрый изменения активности. Код приходит, меняются вектора активации и медленный изменения весов, то есть долговременное обучение. И всё. В мозге же есть множество временных масштабов измерения весов. Например, если я скажу неожиданно слово огурец, а через 5 минут ты наденешь наушники, вокруг будет шум, и слова будут едва слышны, ты всё равно лучше распознаешь слово огурец, потому что я сказал его 5 минут назад. Где хранится это знание? Очевидно, во временных изменениях синапсов. Это не нейроны, которые 5 минут повторяют: "Огурец, огурец". На это бы просто не хватило нейронов. Это временные изменения весов. Мы такое не делаем в современных моделях. И причина в том, что если веса временно меняются в зависимости от входных данных, то ты не можешь обрабатывать множество разных случаев параллельно. Сейчас мы берём много разных строк. складываем их вместе и обрабатываем параллельно, потому что так можно выполнить матрично-матричноные умножение, что намного эффективнее. И ради этой эффективности мы отказываемся от быстрых весов. Но мозг ими активно пользуется как временной памятью. Многое можно было бы сделать с помощью быстрых весов, но сегодня мы этого не сделаем. Я надеялся, что такие компании, как GFCore, если бы они перешли к последовательной обработке и онлайно-обучению, смогли бы использовать быстрые веса. Но пока это не получилось. Думаю, со временем это всё-таки реализуют, когда начнут использовать проводимости как веса. Как знание о том, как работают модели и как работает мозг, повлияло на ваш образ мышления. Есть один большой эффект на довольно абстрактном уровне. Много лет люди презрительно относились к идее взять большую случайную нейросеть, дать ей много данных, и она научится делать сложные вещи. Если бы ты поговорил со статистиками, лингвистами, исследователями и они говорили: "Это фантазии. Невозможно выучить что-то сложное без врождённых знаний или архитектурных ограничений, но оказалось, что это неправда. Можно взять большую случайную сеть и обучить её множеству сложных вещей просто на данных. Идея, что стастический градиентный спуск сможет выучить большие сложные паттерны, полностью подтверждена большими моделями. И это важное знание о мозге. Ему не нужна огромная врождённая структура. Конечно, что-то врождённое в мозге есть, но точно не для вещей, которые легко обучаются. Поэтому идея Чомского о том, что язык невозможно выучить без сложной, врождённой структуры, теперь, очевидно, несостоятельно. Уверен, Чомски обрадуется, что его идеи назвали несостоятельными. Ну, вообще-то многие политические идеи Чомского очень разумные. Меня всегда поражало, как человек со столь здравыми взглядами на Ближний Восток может быть настолько не прав в лингвистике. Что, по вашему мнению, могло бы сделать модели, способными лучше стимулировать человеческое сознание? Представьте и систему, которая общалась бы с вами всю вашу жизнь. И вместо того, чтобы, как сегодня чат GPT забывал разговоры каждый раз, у неё была бы саморефлексия. И вот однажды вы умираете, и вы сообщаете об этом ассистенту. Не я, кто-то другой сообщает об этом ассистенту. Да, было бы сложно сообщить об этом самому. Как думаете, будет ли ассистент чувствовать что-то в этот момент? Да, я думаю, они тоже могут чувствовать. Так же, как у нас есть внутренняя театральная сцена восприятия, сцена чувств, что-то, что могу переживать я, но не другие люди.
Я считаю, эта модель тоже неверна. Если я говорю: "Мне хочется дать Гэрри в нос", что я часто хочу, попробуем отбросить идею внутреннего театра. На самом деле я говорю, если бы не тормозящие сигналы из моих хлобных долей, я бы совершил это действие. Когда мы говорим о чувствах, мы на самом деле говорим о действиях, которые мы бы совершили, если бы не ограничения. Так что я думаю, что можно дать такое же объяснение и для чувств. И нет причин, по которым и не могли бы испытывать чувства. На самом деле я видел эмоцию у робота ещё в 1973 году. В Эдинбурге был робот с двумя хватателями. Он мог собрать игрушечную машинку, если детали лежали раздельно на зелёном сукне. Но если детали свалены в кучу, его зрение было недостаточно хорошим, чтобы разобраться. Поэтому он сдвигал манипуляторы и бац, ударял по куче, разбрасывая детали. После этого он мог собрать машину. Если бы так сделал человек, вы бы сказали, он рассердился на ситуацию, потому что не понимал её и разрушил объект. Очень глубокая мысль. В прошлый раз, когда мы говорили, вы описали людей и большие языковые модели, как машины аналогий. Какие самые мощные аналогии ты нашёл в своей жизни? О, за всю мою жизнь. Наверное, слабая, но сильно повлиявшая на меня аналогия. Это аналогия между религиозной верой и верой в символьную обработку. Когда я был молодым, я вырос в этоистической семье, потом пошёл в школу и столкнулся с религиозной верой. И она казалась мне бессмыслицей. Всё ещё кажется. И когда я увидел символьную обработку как объяснение того, как работает человек, мне показалось, что это то же самое, тоже бессмыслица. Сейчас я думаю, что это не такая уж бессмыслица. Мы действительно выполняем символьную обработку, но делаем это, присваивая символам большие векторы встраивания. Мы всё же работаем с символами, но совсем не так, как думали раньше, когда символ определялся только тем, что он либо идентичен другому символу, либо нет. Это единственное свойство символа в той парадигме. А мы так не делаем. Мы используем контекст, чтобы давать символам вектора встраивания. И дальше используем взаимодействие между компонентами этих векторов, чтобы думать. Есть очень хороший исследователь в Google, Фернандо Перейра. Он сказал: "Да, у нас есть символическое мышление, и единственный настоящий символический язык, который у нас есть - это естественный язык. И мы рассуждаем с его помощью. Сейчас я в это верю. Вы сделали одни из самых значимых исследований в истории компьютерных наук. Как вы выбираете, над какими задачами работать? Во-первых, позволь мне поправить тебя. Я и мои студенты сделали много важного, и это была в основном отличная совместная работа. Мне просто повезло уметь выбирать очень хороших студентов. А это стало возможным потому, что в семидесятых-девяностых и даже в двухтысячных очень мало людей занималось нейросетями, и эти немногие могли выбирать самых сильных студентов. Это просто удача. Мой метод выбора задач такой. Когда учёные рассказывают, как они работают, у них есть теории, которые, скорее всего, мало связаны с правдой. Но моя теория такая. Я ищу область, которой все согласны, но мне что-то кажется неправильным. Просто лёгкая интуиция, что в этой идее есть фальш. А дальше я пытаюсь понять, почему и могу ли я сделать небольшой демонстрационный эксперимент, маленькую программу, чтобы показать, что всё работает не так, как принято думать. Приведу пример. Большинство людей думает, что если добавить шум в нейросеть, она будет работать хуже. Например, если при каждом проходе обучающего примера выключать половину нейронов, сеть должна работать хуже. На самом деле мы знаем, что так она будет лучше обобщать. И это можно показать на простом примере. В этом красота компьютерного моделирования. Ты можешь показать, что интуитивная идея. Добавишь шум, всё испортишь, выключишь половину нейронов, ухудшишь работу. верно лишь в краткосрочной перспективе. Но если обучать сеть так систематически, в итоге она начинает работать лучше. Можно продемонстрировать это маленькой программой, а потом задуматься, почему так происходит и как это предотвращает появление сложных коадаптаций. Так что мой метод находить что-то подозрительное, работать с этим и пытаться сделать простую демонстрацию того, что это неверно. Что вам кажется подозрительным сейчас? То, что мы не используем быстрые веса. То, что у нас есть только два временных масштаба, это просто неправильно. Это совершенно не то, как работает мозг. И в долгосрочной перспективе нам нужны будут гораздо более разнообразные временные масштабы. Это один из примеров. А если бы у вас была группа студентов сегодня, и они бы спросили по хэммингу: "Какова самая важная проблема в нашей области? Что бы ты предложил им изучать? " Мы говорили про рассуждения, про временные шкалы. Что было бы приоритетом? Для меня сейчас это тот же вопрос, который я задаю себе уже около 30 лет. Осуществляет ли мозг обратное распространение? Я верю, что мозг получает градиенты. Если не получать градиенты, обучение гораздо хуже. Но как мозг получает градиенты? И реализует ли он какую-то приближённую версию обратного распространения или это какая-то совершенно другая техника? Это большой открытый вопрос. Если бы я продолжал заниматься исследованиями, я бы занимался этим. Когда вы оглядываетесь назад, вы были правы во многих вещах. А в чём вы ошибались и о чём вы сожалеете? На что потратили много времени? Это два разных вопроса. Первый, в чём я ошибался? Второй: жалею ли я, что потратил на это время? Я думаю, я ошибался насчёт машин Больцмана, и я рад, что потратил на них много времени. Существует гораздо более красивая теория получения градиентов, чем обратное распространение. Обратное распространение - это просто обычное и разумное правило цепочки. Машины Больсмана - это изящно. Это очень интересный способ получать градиенты. И мне бы хотелось, чтобы так работал мозг, но я думаю, что нет. Не так. Думали ли вы, что будет после того, как такие системы будут созданы? Было ли у вас видение? Вот если они заработают, мы сможем демократизировать образование, сделать знания доступнее
Врачи-ИИ, новые материалы и диктаторы с нейросетями
решить сложные проблемы в медицине или вас больше интересовало понимание мозга? Я считаю, что учёные должны заниматься тем, что поможет обществу. Но это не то, как делаются лучшие исследования. Лучшие исследования движимы любопытством. Ты просто должен понять что-то. Последние годы я начал осознавать, что эти системы могут приносить не только огромную пользу, но и большой вред. И я стал куда больше беспокоиться об их влиянии на общество. Но это не было моей мотивацией. Я просто хотел понять, как вообще мозг учится делать то, что он делает. Вот что я хотел узнать. И мне это не удалось. В качестве побочного эффекта этого провала мы получили неплохую инженерную технологию. Да, это был хороший провал для мира. Если смотреть на потенциальные положительные стороны, какие приложения вы считаете наиболее перспективными? Думаю, здравоохранение - очевидна огромная сфера. В медицине практически нет предела тому, сколько помощи общество способно поглотить. Если взять пожилого человека, ему могли бы круглосуточно помогать пять врачей. Поэтому, когда и становится лучше людей в определённых задачах, хочется, чтобы он становился лучше именно там, где нам сильно не хватает ресурсов, а нам очень не хватает врачей. Если бы у каждого человека было по три личных врача, это было бы прекрасно, и мы придём к этому. Это одна из причин, почему здравоохранение - важная область. Есть и другая. Новые инженерные решения. Разработка новых материалов, например, для более эффективных солнечных панелей, для сверхпроводимости или для понимания того, как работает тело. Везде там будут огромные достижения. Всё это принесёт много пользы. Но меня беспокоит, что злонамеренные люди будут использовать ИИ для плохих вещей. Мы дали в руки таким людям, как Си или Трамп, возможность применять ИИ для боевых роботов, манипуляции общественным мнением или массовой слежки. И всё это вызывает серьёзное беспокойство. Вас беспокоит, что замедление развития технологий может также замедлить позитивные эффекты? О, конечно, я думаю, шансов на замедление очень мало, в том числе потому, что область интернациональная. Если одна страна замедляется, другие нет. Между США и Китаем идёт гонка, и ни одна из сторон не собирается тормозить. Так что, да, была петиция о шестимесячной паузе. Я её не подписал, потому что не верил, что это возможно. Возможно, стоило подписать ради политического сигнала, ведь иногда полезно требовать то, чего точно не получишь. Но я не думаю, что замедление произойдёт. Как, по-вашему, это отразится на процессе исследований и появления таких ассистентов? Думаю, исследования станут гораздо эффективнее, и ассистенты помогут и в программировании, и в размышлениях, и, вероятно, в математике, уравнениях тоже. Много ли вы размышляли о выборе талантов? Это происходит интуитивно? Например, когда Илья появился у двери, вы просто почувствовали, он умён, надо работать вместе. Иногда просто понимаешь, после недолгого разговора с Ильёй было ясно, что он очень умён. А ещё спустя немного времени стало очевидно, что он обладает отличной интуицией помимо сильной математики. Это был лёгкий выбор. Другой случай, на конференции NIПС у нас был постер, и подошёл человек, начал задавать вопросы, и каждый его вопрос был глубоким взглядом на то, что мы сделали неправильно. Через 5 минут я предложил ему должность пост дока. Это был Дэвид Маккей, блестящий учёный. Очень печально, что он умер, но было очевидно, что его надо брать. Иногда всё не так очевидно. И я понял, что люди разные. Нет единственного идеального типа студента. Есть студенты не очень креативные, но технически невероятно сильные. Они заставят работать что угодно. Другие, наоборот, крайне креативные, но слабы технически. Конечно, лучше иметь и то, и другое, но это редкость. Я думаю, что в лаборатории нужна комбинация разных типов студентов, но в итоге я доверяю интуиции. Иногда говоришь с человеком, и он просто понимает, вот таких и нужно брать. Как думаете, почему у некоторых людей лучше интуиция? У них просто лучше данные для обучения. Можно ли развить интуицию? Частично они не терпят чепухи. Вот способ испортить интуицию, верить всему, что тебе говорят. Это гибельно. Мне кажется, некоторые люди делают так. У них есть цельная картинка мира. Когда им говорят что-то новое, они пытаются понять, как это вписывается. Если это не вписывается, они это отвергают. Это хорошая стратегия. Люди, которые пытаются впитать всё подряд, получают размытое мировоззрение, которое может вместить всё, и такое мировоззрение бесполезно. Поэтому я считаю, что наличие твёрдого взгляда на мир и попытки подстроить поступающие факторы под свой взгляд, очевидно, могут привести к глубоким религиозным убеждениям, основанным на фатальных ошибках и так далее, вроде моей любви к болсмановским машинам. Но это всё равно правильный путь. Если у вас хорошая интуиция, доверяйте ей. Если плохая, всё равно ничего не поможет. Так что тоже доверяйте. Это верно. Считаете ли вы, что в современных исследованиях мы складываем все яйца в одну корзину? Нужна ли диверсификация идей? Или вы считаете, что это самое многообещающее направление, поэтому давайте сосредоточимся на нём? Думаю, большие модели, обученные на мультимодальных данных. Даже если цель всего лишь предсказания следующего слова - это настолько многообещающий подход, что да, нам стоит почти полностью идти этим путём. Очевидно, есть много людей, которые пробуют сумасшедшие идеи, и это хорошо, но, думаю, нормально, что большинство следует по этому пути. Он себя прекрасно показывает. Сильно ли вообще важны алгоритмы обучения или всё решает масштаб? Существуют ли миллионы путей к человеческому уровню интеллекта или всего несколько правильных? Вопрос: важны ли конкретные алгоритмы или их множество способно привести к тому же результату? Открыт.
Я не знаю точный ответ, но мне кажется, что в некотором смысле обратное распространение ошибки правильная вещь. Получать градиент и менять параметры так, чтобы улучшить систему - это логично. и оно работает потрясающе. Возможно, существуют другие алгоритмы, которые дают те же градиенты или градиенты чего-то иного, но тоже полезного. И это всё открытые и интересные вопросы. Возможно, мозг делает что-то иное, потому что это проще, но обратное распространение ошибки в каком-то смысле правильно, и его эффективность доказана. Последний вопрос. Оглядываясь на десятилетие исследований, чем вы больше всего гордитесь студентами, исследованиями? гордитесь, когда оглядываетесь на дело своей жизни? Алгоритмом обучения для болмановских машин. Он невероятно элегантен. Да, он может быть бесполезен на практике, но это то, что доставило мне наибольшее удовольствие в разработке совместно с Тери. Я этим больше всего горжусь, даже если это ошибочное направление. Над какими вопросами вы проводите больше всего времени сейчас? Что мне посмотреть на Netflix?