Вы прочитали 3 из 3 бесплатных методичек сегодня
Безлимит →
Экстракт 06 февраля 2022

Теория информации на практике: как энтропия помогает решать Wordle

3Blue1Brown · 3Blue1Brown Верифицирован 30:38

Применение теории информации и энтропии Шеннона для создания оптимального алгоритма решения головоломки Wordle. Объяснение понятий бит, информация и энтропия через практический пример.

11 тезисов 6 заданий 8 цитат ⏱ 5 мин чтения 🎯 11 тезисов
YouTube Транскрипт Сохранить
Поделиться: TG WA VK X

Для AI-агентов и LLM

Экстракт доступен в структурированном Markdown. Скачать .md · JSON API · Site index

💡 Ключевые тезисы (11)

1 Информация — это сокращение неопределённости #
Каждое наблюдение ценно настолько, насколько оно сужает пространство возможностей. Если факт уполовинивает число вариантов — это один бит информации. Два бита — сужение в 4 раза, три — в 8 раз. Информативность события обратно пропорциональна его вероятности.
2 Формула информации: I = -log₂(p) #
Количество бит информации вычисляется как отрицательный логарифм по основанию 2 от вероятности события. Это не абстрактная формула — она напрямую отвечает на вопрос «сколько раз мы разрезали пространство вариантов пополам». Логарифмическая шкала удобна тем, что информация складывается, когда вероятности перемножаются.
3 Энтропия — это ожидаемая информация #
Энтропия распределения — это математическое ожидание информации по всем возможным исходам. Она измеряет, сколько бит информации мы в среднем получим от наблюдения. Чем более «плоское» (равномерное) распределение, тем выше энтропия. Максимальная энтропия для Wordle — 7.92 бита (3⁵ = 243 равновероятных паттерна).
4 Маловероятные исходы — самые информативные #
Редкий паттерн цветов в Wordle даёт много информации, потому что резко сужает список кандидатов. Но именно потому, что он редкий, на него нельзя рассчитывать. Наиболее вероятные паттерны (например, все серые) — наименее информативны. Это фундаментальный компромисс теории информации.
5 Лучшее первое слово — то, что максимизирует энтропию #
Для оценки качества догадки нужно рассчитать распределение всех 243 возможных паттернов цветов и вычислить энтропию этого распределения. Слово с наибольшей энтропией в среднем даст максимум информации. Например, SLATE даёт ~5.8 бит, а WEARY — только ~4.9 бит.
6 Частотность букв — интуитивный, но неточный метод #
Первая наивная идея — выбирать слова с самыми частыми буквами английского языка. Но этот подход не учитывает позицию букв в слове, комбинации и перекрытия. NAILS и SNAIL содержат одни буквы, но S в конце слова может давать другую информацию, чем S в начале.
7 Энтропия измеряет одновременно «плоскость» и «размер» распределения #
Если энтропия равна 6 битам, это эквивалентно ситуации с 64 равновероятными исходами. Энтропия — универсальная мера неопределённости: она учитывает и количество возможных исходов, и степень их равномерности.
8 Жадный алгоритм: максимизация энтропии на каждом шаге #
Первая версия бота на каждом ходу перебирает все 13 000 допустимых слов, вычисляет энтропию паттернов для каждого и выбирает максимальную. После каждого хода пространство сужается, и расчёт повторяется для оставшихся слов. Средний результат — 4.124 хода.
9 Информация складывается — вероятности перемножаются #
Если первая догадка даёт 2 бита (сужение в 4 раза), а вторая — 3 бита (ещё в 8 раз), то суммарно получаем 5 бит (сужение в 32 раза). Это свойство делает логарифмическую меру особенно удобной для работы с математическим ожиданием.
10 Учёт частотности слов улучшает эндшпиль #
Наивный бот не знает, какие слова распространены. Когда остаётся 2 варианта (например, SHARD и SHARP), он выбирает случайно. Но человек сразу понимает, что ABYSS вероятнее экзотических альтернатив. Включение частотности слов — следующий шаг оптимизации.
11 Клод Шеннон и термин «энтропия» #
Термин «энтропия» для ожидаемой информации предложил Джон фон Нейман Клоду Шеннону, создателю теории информации. Фон Нейман пошутил: «Называй это энтропией — во-первых, название уже занято в статфизике, а во-вторых, никто толком не знает, что такое энтропия, так что в споре ты всегда будешь в выигрыше».

Теория информации на практике: как энтропия помогает решать Wordle

Спикер: 3Blue1Brown | Длительность: 30:38

Транскрипт

Что такое Wordle?

Wordle — головоломка, в которой нужно угадать пятибуквенное слово за 6 попыток. После каждой догадки игрок получает обратную связь цветом: серый — буквы нет в слове, жёлтый — буква есть, но не на этом месте, зелёный — буква на правильном месте.

Автор создал бота, который играет в Wordle, максимизируя получаемую информацию на каждом шаге. Демонстрация: бот предлагает начать с CRANE, после паттерна серый-жёлтый-зелёный-серый-серый переходит к SHTIK, затем сужает варианты до двух (SHARD и SHARP) и угадывает за 3 хода. Четыре хода считается «паром», три — «бёрди».

Первые идеи: частотность букв

Первый наивный подход — выбрать слова с самыми частыми буквами английского языка. Например, пара OTHER + NAILS покрывает 10 самых частых букв. Даже все серые ответы информативны, потому что слова без этих букв крайне редки.

Но этот метод не учитывает порядок букв: NAILS и SNAIL содержат одни буквы, но дают разную информацию. Нужен формальный количественный критерий.

Устройство игры: 13 000 допустимых слов

Wordle принимает ~13 000 допустимых слов в качестве догадок, но ответами могут быть только ~2 300 распространённых слов (список курировала девушка создателя игры). Автор ставит задачу: создать бота, не использующего этот список, — более универсального и не «жульничающего».

Анализ качества догадки

Для слова WEARY: если выпадет паттерн с W на месте — останется всего 58 вариантов из 13 000 (огромное сужение). Но вероятность такого паттерна — лишь 58/13 000. Самый вероятный паттерн — все серые (~14%) — наименее информативен.

Распределение вероятностей по всем 3⁵ = 243 возможным паттернам — ключ к оценке слова. Нужна мера ожидаемой информации.

Теория информации: биты

Единица информации — бит. Наблюдение, сужающее варианты вдвое — 1 бит, вчетверо — 2 бита, в 8 раз — 3 бита. Формула: I = log₂(1/p) = -log₂(p).

Почему логарифмы? Две причины: (1) удобство для малых вероятностей — проще сказать «20 бит», чем «0.0000095»; (2) информация складывается, когда вероятности перемножаются — 2 бита + 3 бита = 5 бит.

Энтропия: ожидаемая информация

Энтропия = Σ p(x) × (-log₂(p(x))). Для WEARY энтропия ≈ 4.9 бит, для SLATE ≈ 5.8 бит. SLATE лучше, потому что его распределение паттернов более плоское — даже худший случай (все серые) имеет вероятность лишь 6%.

Клод Шеннон разработал теорию информации в 1940-х в Bell Labs. Фон Нейман предложил назвать ожидаемую информацию «энтропией» — отчасти из-за связи со статмеханикой, отчасти ради стратегического преимущества в дебатах.

Алгоритм Wordle-бота (версия 1)

Бот перебирает все 13 000 слов, для каждого считает энтропию распределения паттернов, выбирает слово с максимальной энтропией. После получения паттерна — сужает список и повторяет. Лучшее первое слово (без учёта частотности) — TARES (~5.8 бит). Средний результат на 2 315 тестовых словах — 4.124 хода.

Слабость: бот не знает, какие слова распространены. При 50/50 выборе между SHARD и SHARP или двумя экзотическими словами он не отдаёт предпочтение обычным. Следующий шаг — учёт частотности слов.

Практические задания

Задание 1: Вычисли информацию от простого события

Возьми монету. Бросок монеты имеет вероятность 1/2. Рассчитай информацию: I = -log₂(1/2) = 1 бит. Теперь рассчитай информацию для броска кубика (p = 1/6): I = -log₂(1/6) ≈ 2.58 бита. Проверь интуицию: результат кубика действительно «удивительнее» монеты примерно в 2.5 раза.

Задание 2: Построй распределение паттернов для слова

Выбери любое пятибуквенное слово (например, CRANE). Возьми список из 20-30 пятибуквенных слов. Для каждого «ответа» определи паттерн цветов (серый/жёлтый/зелёный). Подсчитай, сколько ответов дают каждый паттерн. Ты получишь распределение — основу для расчёта энтропии.

Задание 3: Рассчитай энтропию распределения вручную

Используя распределение из предыдущего задания, рассчитай энтропию: H = Σ p(x) × (-log₂(p(x))). Для каждого паттерна умножь его вероятность на количество бит информации. Сложи все произведения. Сравни результат для 2-3 разных стартовых слов.

Задание 4: Проверь свойство максимума энтропии

Возьми два распределения: (A) четыре исхода по 1/4 и (B) четыре исхода с вероятностями 1/2, 1/4, 1/8, 1/8. Рассчитай энтропию обоих. Убедись, что равномерное (A) даёт ровно 2 бита, а неравномерное (B) — меньше.

Задание 5: Напиши простой Wordle-бот

На Python реализуй упрощённый алгоритм: загрузи список пятибуквенных слов, для каждого кандидата рассчитай энтропию распределения паттернов, выбери слово с максимальной энтропией. Начни с маленького списка (100-500 слов) для скорости.

Задание 6: Сравни стратегии

Составь топ-5 стартовых слов по двум критериям: (1) суммарная частотность букв и (2) энтропия паттернов. Сравни списки и объясни различия.

Пошаговые инструкции применения

  1. Освой формулу информации: Запомни I = -log₂(p). Потренируйся на простых вероятностях: 1/2, 1/4, 1/8.
  2. Научись считать энтропию: H = Σ p(x) × log₂(1/p(x)). Начни с монеты и кубика.
  3. Примени к Wordle: Для стартового слова смоделируй все паттерны ответов и подсчитай энтропию.
  4. Сравни слова по энтропии: Рассчитай для CRANE, SLATE, AUDIO, WEARY — выбери лучшее.
  5. Реализуй жадный алгоритм: Python-скрипт с перебором слов и максимизацией энтропии.
  6. Добавь веса частотности: Присвой распространённым словам больший вес через корпусные данные.
  7. Протестируй: Прогони по 2 315 ответам Wordle, цель — средний результат ≤ 4.0.
  8. Перенеси принцип в жизнь: При принятии решений задавайте вопрос, максимально сужающий варианты.

Лучшие цитаты

«Паттерн с большим количеством информации по своей природе маловероятен. По сути, быть информативным — значит быть маловероятным» — 3Blue1Brown

«Так же как вероятности любят перемножаться, информация любит складываться» — 3Blue1Brown

«Называй это энтропией: во-первых, название уже занято в статфизике, а во-вторых — никто толком не знает, что такое энтропия, так что в споре ты всегда в выигрыше» — Джон фон Нейман

«Это просто очень интуитивная идея — подсчитать, сколько раз вы разрезали пространство возможностей пополам» — 3Blue1Brown

«Если энтропия равна 6 битам — это как 64 равновероятных исхода» — 3Blue1Brown

«Даже все серые — это тоже много информации, потому что слово без этих букв найти трудно» — 3Blue1Brown

«Наиболее вероятные исходы одновременно являются наименее информативными» — 3Blue1Brown

«Очевидно, нам нужна лучшая стратегия для эндшпиля» — 3Blue1Brown

🔒

Бесплатный лимит исчерпан

Вы прочитали 3 методичек сегодня. Завтра лимит обновится, или подпишитесь для неограниченного доступа.

🏋️ Практикум

0 / 6 выполнено

Вычисли информацию от простого события

Возьми монету. Бросок монеты имеет вероятность 1/2. Рассчитай информацию: I = -log₂(1/2) = 1 бит. Теперь рассчитай информацию для броска кубика (p = 1/6): I = -log₂(1/6) ≈ 2.58 бита. Проверь интуицию: результат кубика действительно «удивительнее» монеты примерно в 2.5 раза.

Построй распределение паттернов для слова

Выбери любое пятибуквенное слово (например, CRANE). Возьми список из 20-30 пятибуквенных слов. Для каждого «ответа» определи паттерн цветов (серый/жёлтый/зелёный). Подсчитай, сколько ответов дают каждый паттерн. Ты получишь распределение — основу для расчёта энтропии.

Рассчитай энтропию распределения вручную

Используя распределение из предыдущего задания, рассчитай энтропию: H = Σ p(x) × (-log₂(p(x))). Для каждого паттерна умножь его вероятность на количество бит информации. Сложи все произведения. Сравни результат для 2-3 разных стартовых слов — какое даёт больше энтропии?

Проверь: плоское распределение даёт максимум энтропии

Возьми два распределения: (A) четыре исхода с вероятностями 1/4, 1/4, 1/4, 1/4 и (B) четыре исхода с вероятностями 1/2, 1/4, 1/8, 1/8. Рассчитай энтропию обоих. Убедись, что равномерное распределение (A) даёт ровно 2 бита, а неравномерное (B) — меньше. Это ключевое свойство энтропии.

Напиши простой Wordle-бот

На Python или другом языке реализуй упрощённый алгоритм: загрузи список пятибуквенных слов, для каждого кандидата рассчитай энтропию распределения паттернов, выбери слово с максимальной энтропией. Начни с маленького списка (100-500 слов) для скорости. Проверь, совпадает ли лучшее стартовое слово с интуицией.

Сравни стратегии: частотность букв vs. энтропия

Составь топ-5 стартовых слов по двум критериям: (1) суммарная частотность букв в английском языке и (2) энтропия паттернов. Сравни списки. Обрати внимание, что энтропийный подход учитывает позиции букв и их комбинации, а частотный — нет. Это демонстрирует преимущество формального подхода над интуитивным.

🎉
Все задания выполнены!
Отлично — знания превращены в навыки

💬 Цитаты (8)

«Паттерн с большим количеством информации по своей природе маловероятен. По сути, быть информативным — значит быть маловероятным. (The pattern with a lot of information is, by its very nature, unlikely to occur. In fact, what it means to be informative is that it's unlikely.)» #

«Так же как вероятности любят перемножаться, информация любит складываться. (In the same way that probabilities like to multiply, information likes to add.)» #

«Называй это энтропией, и по двум причинам. Во-первых, твоя функция неопределённости уже используется в статистической механике под этим именем. А во-вторых, и это важнее, никто толком не знает, что такое энтропия, так что в споре у тебя всегда будет преимущество. (You should call it entropy, and for two reasons. In the first place, your uncertainty function has been used in statistical mechanics under that name... and in the second place, nobody knows what entropy really is, so in a debate you'll always have the advantage.)» #

«Это просто очень интуитивная идея — подсчитать, сколько раз вы разрезали пространство возможностей пополам. (It really is just the very intuitive idea of asking how many times you've cut down your possibilities in half.)» #

«Если вы видите распределение с энтропией в 6 бит, это всё равно что сказать: неопределённость такая же, как если бы было 64 равновероятных исхода. (If you see some distribution out in the wild that has an entropy of 6 bits, it's sort of like it's saying there's as much variation and uncertainty in what's about to happen as if there were 64 equally likely outcomes.)» #

«Даже если вы промахнулись и получили все серые — это тоже даёт много информации, потому что слово без этих букв найти трудно. (Even if you don't hit and you always get grays, that's still giving you a lot of information, since it's pretty rare to find a word that doesn't have any of these letters.)» #

«Очевидно, нам нужна лучшая стратегия для эндшпиля. (So obviously we need a better endgame strategy.)» #

«Наиболее вероятные исходы одновременно являются наименее информативными. (The most likely outcomes are also the least informative.)» #

Читать далее

Мастерство визуальной математики: как создавать бесконечные циклы в стиле Эшера

3Blue1Brown

Мастерство визуальной математики: как создавать бесконечные циклы в стиле Эшера

Грант Сандерсон (3Blue1Brown)

Понравился экстракт?
Подписывайтесь — лучшие материалы каждую неделю.
Telegram Дайджест →

Поделитесь с коллегами

Telegram ВКонтакте X / Twitter
Открыть в Telegram

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Дайджест Экстрактов

Лучшие методички за неделю — каждый понедельник