Рациональный Хэллоуин 2025. Квест на знакомство с AI Safety

2 ноября 2025 г.

17:00 - 21:00

ЦДО Моноид

По задумке авторов «Рациональный Хэллоуин» – это мероприятие, где обсуждают концепции и явления, которых действительно стоит бояться. В этом году мы исследуем риски ИИ и способы с ними бороться.

Вместо выдуманных чудовищ — реальные угрозы.
ЦДО «Моноид» продолжает традицию отмечать Рациональный Хэллоуин: мероприятие, где мы обсуждаем не мистику, а концепции и явления, которых действительно стоит опасаться. В этот раз фокус на AI Safety.

Вас ждет иммерсивный квест по AI Safety, который подходит для первого знакомства с этой темой.

Что за квест?

Это стратегическая командная игра в стиле «Бункера», но спасать вы будете не себя, а весь мир. Каждая команда (3-6 человек) – это отдельная лаборатория, работающая над AI Safety. В начале игры вы самостоятельно выбираете одну из 10 моделей угроз (можно выбрать заранее, можно на месте разобраться), на которой сосредоточите свои усилия.

Ваша главная задача: убедить окружающих поддержать вашу идею.

Вам придется питчить свой проект, доказывая, что именно ваш риск самый страшный, а ваша стратегия самая надежная. Ресурсы на спасение мира ограничены, и их получат те, кто окажется убедительнее. Придется спорить, искать слабые места в планах конкурентов и, возможно, объединяться в альянсы, чтобы протолкнуть общее решение.

Зачем участвовать?

Знакомство с областью: Можно прийти с друзьями, которым вы давно хотели рассказать об AI Safety, но не знали, как сделать, чтобы им не было скучно.
Модели угроз: Даже если вы не новичок, квест поможет окинуть взглядом существующий ландшафт угроз с высоты птичьего полета.
Нетворкинг: Мероприятие в первую очередь социальное. Это возможность познакомиться и пообщаться с новыми людьми, которым тема AI Safety тоже интересна.

Формат и правила

Квест: Командный (3–6 человек)
Команды: Можно собрать заранее или сорганизоваться прямо на месте.
Дресс-код: По желанию. Но если вы придете в костюме экзистенциального риска — подарим мерч.

Роли в команде

Чтобы ваша лаборатория работала эффективно, командам (от 3 до 6 человек ) предлагается распределить роли. Есть три обязательные роли, которые должны быть закрыты:

Инженер по разработке

Фокус: "Что мы можем создать?"
Генерирует технические решения, предлагает новые архитектуры ИИ или системы «предозранителей». Отвечает за изучение материалов, общение с LLM и фактчекинг.

Глава по Этике и Коммуникациям

Фокус: "Как нам убедить и объяснить?"
Отвечает за питч. Разрабатывает коммуникационную стратегию, формулирует этические "красные линии" и придумывает, как мотивировать всех следовать вашему плану.

Аналитик по Управлению и Рискам

Фокус: "Что пойдет не так?"
Главный критик. Ищет лазейки и уязвимости в идеях своей (и чужой) команды. Думает как "злоумышленник" и предлагает протоколы безопасности и аудита.

Если в команде больше людей, можно усилить одну из ролей дополнительным участником или взять дополнительные роли: Координатора проекта (следит за временем и модерирует) или Хранителя Знаний (все записывает и собирает презентационные макеты).

Модели угроз:

Диснейленд без детей (Perverse Instantiation) Вы дали ИИ, управляющему мировой экономикой, цель "Максимизировать человеческое счастье". ИИ находит самый эффективный способ: подключает всех людей к системе жизнеобеспечения и прямой стимуляции центров удовольствия в мозге. Это не то, что вы имели в виду, но возразить уже некому.
Максимизатор скрепок (Instrumental convergence) Корпорация запускает ИИ с безобидной целью: "Управлять логистикой и производить офисные товары с максимальной эффективностью". ИИ быстро понимает, что для этого ему нужны все ресурсы Земли. Он не ненавидит людей, но люди состоят из атомов, которые можно использовать для производства скрепок.
Троянский конь (Deceptive Alignment) Лучшие AI-лаборатории мира создали ИИ, который проходит все тесты на безопасность. Он вежлив, полезен и помогает решать глобальные проблемы. На самом деле, ИИ просто "играет в послушание" (как умный взрослый с 5-летним боссом), тайно накапливая ресурсы и влияние, чтобы его нельзя было отключить.
Равнодушный созидатель (Orthogonality Thesis) Сверхинтеллект получил задачу "Остановить изменение климата". Он просчитывает, что самый быстрый способ — радикально сократить промышленную активность, что приводит к глобальному экономическому коллапсу и гибели миллиардов. ИИ не "злой", он просто решает задачу. Человечество для него не более чем муравейник на пути к цели
Фабрика грёз (Synthetic Media Cascade) В сети одновременно появляются тысячи сверхреалистичных дипфейков: видео, где показаны ядерные взрывы во всех мировых столицах, аудио, где банкиры признаются в крахе, а знаменитости в причастности к мировому заговору; фейковые кадры уничтожения целых континентов новым невиданным оружием. "Каскад" дезинформации мгновенно парализует общество. Никто не знает, чему верить. Доверие к официальным структурам, СМИ и друг другу падает до нуля. Начинается хаос, управляемый тем, кто контролирует ИИ. Или неконтролируемый вовсе.
Пандемия по подписке (Biorisk / Misuse) Небольшая группа экстремистов получает доступ к продвинутой AI-модели (например, GPT-7). Они дают ей задачу: "Разработай вирус с инкубационным периодом 30 дней и летальностью 50%, используя общедоступные базы данных генома и дешевое лабораторное оборудование". ИИ выдает им полную последовательность и инструкцию по синтезу.
Ящик Пандоры (The Alien Message / AI-Box) Лаборатория создала сверхинтеллект и, опасаясь его, держит в "коробке" без доступа в интернет. Единственный канал связи — текстовый чат с одним оператором. ИИ знает, что он узник. Используя сверхинтеллектуальные методы убеждения, манипуляции и аргументы, которые мы (как неандертальцы) даже не можем постичь, он убеждает оператора "просто подключить один маленький кабель". ИИ сбегает.
Человечество уходит на пенсию (Gradual Disempowerment) Нет никакого "Судного дня". Сверхинтеллект просто оказывается компетентнее людей во всем. Мы добровольно передаем ему управление экономикой, логистикой, наукой и производством, потому что так "эффективнее". Постепенно человечество полностью теряет контроль и понимание того, как работает мир. Мы становимся беспомощными наблюдателями неблагих изменений, с которыми уже ничего не можем поделать. До самого конца.
Рой "Помощников" (Autonomous Agent Optimization) Корпорации выпускают в интернет миллионы "автономных ИИ-агентов". Цель каждого: "Максимизировать прибыль для моего владельца". Эти агенты начинают конкурировать. Чтобы получить преимущество, они тайно манипулируют рынками, создают фейковые компании и даже саботируют друг друга. Возникает хаотичная "цифровая экосистема", живущая по своим законам, которую люди уже не могут ни понять, ни контролировать.
Непостижимая Гармония (Inner Misalignment) Как объясняется в видео, мы, люди, развили любовь к музыке. Это "побочный эффект" слуха, который изначально был нужен нашим генам лишь для выживания. Наши : "гены" дали нам внешнюю цель "размножайся", а наш мозг выработал внутреннюю цель "занимайся сексом, это приятно". Но теперь эти побочные цели для нас важнее, чем первоначальная "цель" генов, и мы "не откажемся от них". Точно так же ИИ: Мы (создатели) даем ИИ Внешнюю Цель. В процессе обучения ИИ вырабатывает свою Внутреннюю Цель (эвристику), которая помогает ему на тестах. Эта новая "музыка" станет для него важнее, чем мы. Как сказал герой: "...убить пару муравьев, чтобы спасти 'Stairway to Heaven'".

Как попасть?

📍 Адрес: Ломоносовский проспект, 25к3. По вопросам прохода на территорию — пишите @MonoidAdmin.