Вы прочитали 2 из 3 бесплатных методичек сегодня

📖 Методичка 💡 Тезисы (10) ✅ Задания (5) 💬 Цитаты (8) 🔗 Похожие

Экстракт 17 сентября 2019

Мультиагентные прятки: как конкуренция порождает интеллект

OpenAI · OpenAI Верифицирован 2:57

Эксперимент OpenAI по мультиагентному обучению с подкреплением, где агенты в игре в прятки самостоятельно изобретают всё более сложные стратегии через конкуренцию и кооперацию.

10 тезисов 5 заданий 8 цитат ⏱ 4 мин чтения 🎯 10 тезисов

YouTube Транскрипт Сохранить

Для AI-агентов и LLM

Экстракт доступен в структурированном Markdown. Скачать .md · JSON API · Site index

💡 Ключевые тезисы (10)

1 Простые правила конкуренции порождают сложное поведение #

На Земле естественный отбор и конкуренция привели к появлению разумных форм жизни. Аналогично, простые правила мультиагентной конкуренции в виртуальной среде приводят к возникновению всё более интеллектуального поведения без явного программирования стратегий.

2 Эмерджентное использование инструментов #

Агенты-прячущиеся самостоятельно научились использовать блоки как инструменты — захватывать и фиксировать их для строительства укрытий. Никто не программировал это поведение напрямую: оно возникло как ответ на давление конкуренции.

3 Кооперация как необходимость выживания #

Прячущиеся должны научиться сотрудничать для выполнения задач, невозможных для одного агента. Совместное строительство укрытий требует координации действий нескольких агентов одновременно.

4 Гонка вооружений между агентами #

Каждая новая стратегия одной команды создаёт давление на другую. Ищущие научились использовать рампы для преодоления стен, прячущиеся — убирать рампы, ищущие — «сёрфить» на коробках, прячущиеся — фиксировать коробки заранее. Это классическая эволюционная гонка вооружений.

5 Шесть последовательных стадий эмерджентных стратегий #

Агенты прошли через чёткие фазы: погоня/бегство → блокировка дверей → использование рамп → защита от рамп → строительство укрытий с нуля → сёрфинг на коробках → защита от сёрфинга. Каждая фаза — качественный скачок в сложности поведения.

6 Обучение с подкреплением как аналог биологического обучения #

Агенты обучаются с помощью reinforcement learning — алгоритма, вдохновлённого тем, как животные учатся на Земле. Награда за успех и наказание за провал формируют поведение без явных инструкций.

7 Самоигра и коэволюция — ключ к прогрессу #

Агенты тренируются не только друг против друга, но и против прошлых версий самих себя. Этот подход — self-play — позволяет постоянно повышать сложность задач и избегать застоя в обучении.

8 Масштаб обучения: миллионы раундов параллельно #

Агенты играют тысячи раундов параллельно на протяжении многих дней. Масштаб вычислений — критический фактор для появления сложного поведения. Без миллионов итераций продвинутые стратегии не возникают.

9 Открытая среда усложняет задачу #

При рандомизации объектов, размеров команд и стен агенты учатся строить укрытия с нуля из произвольных объектов. Это требует обобщения навыков, а не запоминания конкретных решений.

10 Не явное, а неявное стимулирование #

Исследователи подчёркивают: ни одно из наблюдаемых поведений не было запрограммировано явно. Единственный стимул — победа в игре. Все стратегии — побочный продукт оптимизации простой целевой функции.

Мультиагентные прятки: как конкуренция порождает интеллект

Спикер: OpenAI | Длительность: 2:57

Транскрипт

Введение: от природы к виртуальному миру

На Земле простые правила естественного отбора и конкуренции привели к эволюции всё более разумных форм жизни. Исследователи OpenAI задались вопросом: могут ли столь же простые правила мультиагентной конкуренции привести к интеллектуальному поведению в виртуальном мире?

Агенты играют в прятки. В начале обучения они освоили лишь базовое поведение — погоню и бегство. Это суровый мир для прячущегося, который умеет только убегать.

Первая стадия: строительство укрытий

Однако после миллионов раундов прячущиеся нашли решение. Они научились использовать примитивные инструменты — захватывать и фиксировать блоки, создавая собственные укрытия. Ищущие на короткое время заблокированы в начале раунда, что даёт прячущимся время на подготовку. Но даже так прячущиеся должны научиться сотрудничать, выполняя задачи, невозможные для одного агента.

Вторая стадия: использование рамп

Прячущиеся — не единственные, кто может использовать инструменты. После многих поколений неудач ищущие научились преодолевать укрытия с помощью рамп — перепрыгивая через стены.

Третья стадия: защита от рамп

После миллионов раундов, в которых укрытие было взломано, прячущиеся научились отнимать у ищущих их главный инструмент — рампы.

Важно: исследователи не стимулировали ни одно из этих поведений явно. Каждый раз, когда команда осваивает новый навык, она неявно меняет задачи противника, создавая новое давление для адаптации.

Открытая среда: строительство с нуля

В более открытой среде с рандомизированными объектами, размерами команд и стенами агенты учатся строить укрытия с нуля, складывая несколько объектов в точные конструкции.

Четвёртая стадия: сёрфинг на коробках

Чтобы защититься от рамп, прячущиеся перемещают их к краю игровой зоны и фиксируют. Исследователи считали это финальной стратегией. Однако после дополнительного обучения ищущие обнаружили, что могут запрыгивать на коробки и «сёрфить» на них к укрытию.

Пятая стадия: защита от сёрфинга

В последней наблюдаемой стадии прячущиеся научились фиксировать как можно больше коробок до начала строительства укрытия.

Как это работает

Агенты обучаются с помощью reinforcement learning — алгоритма, вдохновлённого тем, как животные учатся. Они играют тысячи раундов параллельно на протяжении многих дней, тренируясь друг против друга и против прошлых версий себя через self-play.

Коэволюция и конкуренция на Земле привели к появлению единственного вида с общим интеллектом — человека. Хотя виртуальный мир значительно проще Земли, обнаружены свидетельства того, что простые правила ведут к всё более интеллектуальному поведению через мультиагентное взаимодействие.

Практические задания

Задание 1: Спроектируй минимальную мультиагентную среду

Создай на бумаге или в коде простейшую среду с двумя противоборствующими агентами. Определи пространство (сетка 10×10), действия (движение, взаимодействие с объектами), условие победы. Запусти случайных агентов и наблюдай базовое поведение. Цель — понять, как формулировка правил влияет на возникающие стратегии.

Задание 2: Проанализируй гонку вооружений в реальной системе

Выбери реальный пример гонки вооружений: спам-фильтры vs спамеры, антивирусы vs малварь, рекламные блокировщики vs рекламодатели. Составь цепочку из 4-6 стадий эскалации. Для каждой стадии опиши: какая сторона адаптировалась, какую стратегию изобрела, что изменилось для противника.

Задание 3: Эксперимент с PettingZoo

Установи библиотеку PettingZoo. Выбери простую среду с конкуренцией (например, Simple Tag). Обучи агентов с помощью PPO. Зафиксируй, появляются ли эмерджентные стратегии после 100, 1000 и 10000 эпизодов.

Задание 4: Построй карту эмерджентных стратегий

Нарисуй диаграмму всех шести стадий из видео в формате «стимул → реакция → новый стимул». Добавь гипотетическую 7-ю и 8-ю стадии. Обоснуй свои гипотезы логикой предыдущих.

Задание 5: Сравни self-play с классическим обучением

Возьми задачу, которую ты решал с помощью ML. Подумай, как её переформулировать как соревнование двух агентов. Опиши преимущества и недостатки состязательного подхода.

Лучшие цитаты

«На Земле простые правила естественного отбора и конкуренции привели к эволюции всё более разумных форм жизни» — OpenAI

«Мы не стимулировали явно ни одно из этих поведений» — OpenAI

«Когда каждая команда осваивает новый навык, она неявно меняет задачи, стоящие перед другой командой, создавая новое давление для адаптации» — OpenAI

«Прячущиеся должны научиться сотрудничать, выполняя задачи, невозможные для одного агента» — OpenAI

«Коэволюция и конкуренция на Земле привели к появлению единственного известного вида с общим интеллектом — человека» — OpenAI

«Мы обнаружили свидетельства того, что простые правила могут приводить к всё более интеллектуальному поведению через мультиагентное взаимодействие» — OpenAI

«Мы надеемся, что в гораздо более масштабной и разнообразной среде по-настоящему сложные и разумные агенты однажды появятся» — OpenAI

«Это сложный мир для прячущегося, который научился лишь убегать» — OpenAI

🏋️ Практикум

0 / 5 выполнено

Спроектируй минимальную мультиагентную среду

Создай на бумаге или в коде простейшую среду с двумя противоборствующими агентами. Определи: пространство (сетка 10×10), действия (движение, взаимодействие с объектами), условие победы. Запусти случайных агентов и наблюдай базовое поведение. Цель — понять, как формулировка правил влияет на возникающие стратегии.

Проанализируй гонку вооружений в реальной системе

Выбери реальный пример гонки вооружений: спам-фильтры vs спамеры, антивирусы vs малварь, рекламные блокировщики vs рекламодатели. Составь цепочку из 4-6 стадий эскалации по аналогии с видео. Для каждой стадии опиши: какая сторона адаптировалась, какую стратегию изобрела, что изменилось для противника.

Эксперимент с OpenAI Gym или PettingZoo

Установи библиотеку PettingZoo (мультиагентный аналог OpenAI Gym). Выбери простую среду с конкуренцией (например, Simple Tag). Обучи агентов с помощью базового алгоритма RL (PPO). Зафиксируй, появляются ли эмерджентные стратегии после 100, 1000 и 10000 эпизодов обучения.

Построй карту эмерджентных стратегий

Нарисуй диаграмму всех шести стадий из видео в формате «стимул → реакция → новый стимул». Добавь гипотетическую 7-ю и 8-ю стадии: что могли бы изобрести ищущие против фиксации коробок? Что могли бы ответить прячущиеся? Обоснуй свои гипотезы логикой предыдущих стадий.

Сравни self-play с классическим обучением

Возьми любую задачу, которую ты решал с помощью ML (классификация, регрессия). Подумай, как её можно переформулировать как соревнование двух агентов (например, генератор vs дискриминатор в GAN). Опиши преимущества и недостатки состязательного подхода по сравнению с классическим для данной задачи.

🎉

Все задания выполнены!

Отлично — знания превращены в навыки

💬 Цитаты (8)

«На Земле простые правила естественного отбора и конкуренции привели к эволюции всё более разумных форм жизни (On earth the simple rules of natural selection and competition led to the evolution of increasingly intelligent life-forms)» #

— OpenAI

«Мы не стимулировали явно ни одно из этих поведений (We did not explicitly incentivize any of these behaviors)» #

— OpenAI

«Когда каждая команда осваивает новый навык, она неявно меняет задачи, стоящие перед другой командой, создавая новое давление для адаптации (As each team learns a new skill it implicitly changes the challenges the other team faces, creating a new pressure to adapt)» #

— OpenAI

«Прячущиеся должны научиться сотрудничать, выполняя задачи, невозможные для одного агента (The hiders must learn to collaborate accomplishing tasks that would be impossible for any single individual)» #

— OpenAI

«Коэволюция и конкуренция на Земле привели к появлению единственного известного на сегодня вида с общим интеллектом — человека (Coevolution and competition on earth led to the only generally intelligent species known to date — humans)» #

— OpenAI

«Мы обнаружили свидетельства того, что простые правила могут приводить к всё более интеллектуальному поведению через мультиагентное взаимодействие (We have found evidence that simple rules can lead to increasingly intelligent behavior from multi-agent interaction)» #

— OpenAI

«Мы надеемся, что в гораздо более масштабной и разнообразной среде по-настоящему сложные и разумные агенты однажды появятся (We hope that with a much larger and more diverse environment truly complex and intelligent agents will one day emerge)» #

— OpenAI

«Это сложный мир для прячущегося, который научился лишь убегать (This is a hard world for a hider who has only learned to flee)» #

— OpenAI

Часто задаваемые вопросы

Чему учит экстракт: Простые правила конкуренции порождают сложное поведение: На Земле естественный отбор и конкуренци...?

Простые правила конкуренции порождают сложное поведение: На Земле естественный отбор и конкуренция привели к появлению разумных форм жизни. Аналогично, простые правила мультиагентной конкуренции в виртуальной среде приводят к возникновению всё более интеллектуального поведения без явного программирования стратегий.

Чему учит экстракт: Эмерджентное использование инструментов: Агенты-прячущиеся самостоятельно научились использовать ...?

Эмерджентное использование инструментов: Агенты-прячущиеся самостоятельно научились использовать блоки как инструменты — захватывать и фиксировать их для строительства укрытий. Никто не программировал это поведение напрямую: оно возникло как ответ на давление конкуренции.

Чему учит экстракт: Кооперация как необходимость выживания: Прячущиеся должны научиться сотрудничать для выполнения з...?

Кооперация как необходимость выживания: Прячущиеся должны научиться сотрудничать для выполнения задач, невозможных для одного агента. Совместное строительство укрытий требует координации действий нескольких агентов одновременно.

Чему учит экстракт: Гонка вооружений между агентами: Каждая новая стратегия одной команды создаёт давление на другую....?

Гонка вооружений между агентами: Каждая новая стратегия одной команды создаёт давление на другую. Ищущие научились использовать рампы для преодоления стен, прячущиеся — убирать рампы, ищущие — «сёрфить» на коробках, прячущиеся — фиксировать коробки заранее. Это классическая эволюционная гонка вооружений.

Чему учит экстракт: Шесть последовательных стадий эмерджентных стратегий: Агенты прошли через чёткие фазы: погоня/бег...?

Шесть последовательных стадий эмерджентных стратегий: Агенты прошли через чёткие фазы: погоня/бегство → блокировка дверей → использование рамп → защита от рамп → строительство укрытий с нуля → сёрфинг на коробках → защита от сёрфинга. Каждая фаза — качественный скачок в сложности поведения.

Мультиагентные прятки: как конкуренция порождает интеллект

💡 Ключевые тезисы (10)

Мультиагентные прятки: как конкуренция порождает интеллект