Мультиагентные прятки: как конкуренция порождает интеллект > Спикер: OpenAI | Длительность: 2:57 Ключевые идеи 1. Простые правила конкуренции порождают сложное поведение — На Земле естественный отбор привёл к разуму. Аналогично, простые правила мультиагентной конкуренции в виртуальной среде приводят к возникновению интеллектуального поведения без явного программирования. 2. Эмерджентное использование инструментов — Агенты-прячущиеся самостоятельно научились захватывать и фиксировать блоки для строительства укрытий. Это поведение никто не программировал — оно возникло как ответ на конкуренцию. 3. Кооперация как необходимость — Прячущиеся научились сотрудничать для задач, невозможных в одиночку: совместное строительство укрытий требует координации нескольких агентов. 4. Гонка вооружений — Каждая стратегия одной команды создаёт давление на другую. Ищущие освоили рампы → прячущиеся убрали рампы → ищущие «сёрфят» на коробках → прячущиеся фиксируют коробки. 5. Шесть стадий эмерджентных стратегий — Погоня → блокировка дверей → рампы → защита от рамп → строительство с нуля → сёрфинг на коробках → защита от сёрфинга. Каждая стадия — качественный скачок. 6. Обучение с подкреплением — Агенты учатся через RL — алгоритм, вдохновлённый биологическим обучением животных. 7. Self-play и коэволюция — Агенты тренируются друг против друга и против прошлых версий себя, что постоянно повышает сложность задач. 8. Масштаб критичен — Тысячи параллельных раундов на протяжении дней. Без миллионов итераций продвинутые стратегии не возникают. 9. Открытая среда стимулирует обобщение — Рандомизация объектов, команд и стен заставляет агентов обобщать навыки, а не запоминать решения. 10. Неявное стимулирование — Единственный стимул — победа. Все стратегии — побочный продукт оптимизации простой целевой функции. Транскрипт Введение: от природы к виртуальному миру На Земле простые правила естественного отбора и конкуренции привели к эволюции всё более разумных форм жизни. Исследователи OpenAI задались вопросом: могут ли столь же простые правила мультиагентной конкуренции привести к интеллектуальному поведению в виртуальном мире? Агенты играют в прятки. В начале обучения они освоили лишь базовое поведение — погоню и бегство. Это суровый мир для прячущегося, который умеет только убегать. Первая стадия: строительство укрытий Однако после миллионов раундов прячущиеся нашли решение. Они научились использовать примитивные инструменты — захватывать и фиксировать блоки, создавая собственные укрытия. Ищущие на короткое время заблокированы в начале раунда, что даёт прячущимся время на подготовку. Но даже так прячущиеся должны научиться сотрудничать, выполняя задачи, невозможные для одного агента. Вторая стадия: использование рамп Прячущиеся — не единственные, кто может использовать инструменты. После многих поколений неудач ищущие научились преодолевать укрытия с помощью рамп — перепрыгивая через стены. Третья стадия: защита от рамп После миллионов раундов, в которых укрытие было взломано, прячущиеся научились отнимать у ищущих их главный инструмент — рампы. Важно: исследователи не стимулировали ни одно из этих поведений явно. Каждый раз, когда команда осваивает новый навык, она неявно меняет задачи противника, создавая новое давление для адаптации. Открытая среда: строительство с нуля В более открытой среде с рандомизированными объектами, размерами команд и стенами агенты учатся строить укрытия с нуля, складывая несколько объектов в точные конструкции. Четвёртая стадия: сёрфинг на коробках Чтобы защититься от рамп, прячущиеся перемещают их к краю игровой зоны и фиксируют. Исследователи считали это финальной стратегией. Однако после дополнительного обучения ищущие обнаружили, что могут запрыгивать на коробки и «сёрфить» на них к укрытию. Пятая стадия: защита от сёрфинга В последней наблюдаемой стадии прячущиеся научились фиксировать как можно больше коробок до начала строительства укрытия. Как это работает Агенты обучаются с помощью reinforcement learning — алгоритма, вдохновлённого тем, как животные учатся. Они играют тысячи раундов параллельно на протяжении многих дней, тренируясь друг против друга и против прошлых версий себя через self-play. Коэволюция и конкуренция на Земле привели к появлению единственного вида с общим интеллектом — человека. Хотя виртуальный мир значительно проще Земли, обнаружены свидетельства того, что простые правила ведут к всё более интеллектуальному поведению через мультиагентное взаимодействие. Практические задания Задание 1: Спроектируй минимальную мультиагентную среду Создай на бумаге или в коде простейшую среду с двумя противоборствующими агентами. Определи пространство (сетка 10×10), действия (движение, взаимодействие с объектами), условие победы. Запусти случайных агентов и наблюдай базовое поведение. Цель — понять, как формулировка правил влияет на возникающие стратегии. Задание 2: Проанализируй гонку вооружений в реальной системе Выбери реальный пример гонки вооружений: спам-фильтры vs спамеры, антивирусы vs малварь, рекламные блокировщики vs рекламодатели. Составь цепочку из 4-6 стадий эскалации. Для каждой стадии опиши: какая сторона адаптировалась, какую стратегию изобрела, что изменилось для противника. Задание 3: Эксперимент с PettingZoo Установи библиотеку PettingZoo. Выбери простую среду с конкуренцией (например, Simple Tag). Обучи агентов с помощью PPO. Зафиксируй, появляются ли эмерджентные стратегии после 100, 1000 и 10000 эпизодов. Задание 4: Построй карту эмерджентных стратегий Нарисуй диаграмму всех шести стадий из видео в формате «стимул → реакция → новый стимул». Добавь гипотетическую 7-ю и 8-ю стадии. Обоснуй свои гипотезы логикой предыдущих. Задание 5: Сравни self-play с классическим обучением Возьми задачу, которую ты решал с помощью ML. Подумай, как её переформулировать как соревнование двух агентов. Опиши преимущества и недостатки состязательного подхода. Лучшие цитаты > «На Земле простые правила естественного отбора и конкуренции привели к эволюции всё более разумных форм жизни» — OpenAI > «Мы не стимулировали явно ни одно из этих поведений» — OpenAI > «Когда каждая команда осваивает новый навык, она неявно меняет задачи, стоящие перед другой командой, создавая новое давление для адаптации» — OpenAI > «Прячущиеся должны научиться сотрудничать, выполняя задачи, невозможные для одного агента» — OpenAI > «Коэволюция и конкуренция на Земле привели к появлению единственного известного вида с общим интеллектом — человека» — OpenAI > «Мы обнаружили свидетельства того, что простые правила могут приводить к всё более интеллектуальному поведению через мультиагентное взаимодействие» — OpenAI > «Мы надеемся, что в гораздо более масштабной и разнообразной среде по-настоящему сложные и разумные агенты однажды появятся» — OpenAI > «Это сложный мир для прячущегося, который научился лишь убегать» — OpenAI