Рациональный Хэллоуин 2025. Квест на знакомство с AI Safety
По задумке авторов «Рациональный Хэллоуин» – это мероприятие, где обсуждают концепции и явления, которых действительно стоит бояться. В этом году мы исследуем риски ИИ и способы с ними бороться.
Вместо выдуманных чудовищ — реальные угрозы.
ЦДО «Моноид» продолжает традицию отмечать Рациональный Хэллоуин: мероприятие, где мы обсуждаем не мистику, а концепции и явления, которых действительно стоит опасаться. В этот раз фокус на AI Safety.
Вас ждет иммерсивный квест по AI Safety, который подходит для первого знакомства с этой темой.
Что за квест?
Это стратегическая командная игра в стиле «Бункера», но спасать вы будете не себя, а весь мир. Каждая команда (3-6 человек) – это отдельная лаборатория, работающая над AI Safety. В начале игры вы самостоятельно выбираете одну из 10 моделей угроз (можно выбрать заранее, можно на месте разобраться), на которой сосредоточите свои усилия.
Ваша главная задача: убедить окружающих поддержать вашу идею.
Вам придется питчить свой проект, доказывая, что именно ваш риск самый страшный, а ваша стратегия самая надежная. Ресурсы на спасение мира ограничены, и их получат те, кто окажется убедительнее. Придется спорить, искать слабые места в планах конкурентов и, возможно, объединяться в альянсы, чтобы протолкнуть общее решение.
Зачем участвовать?
- Знакомство с областью: Можно прийти с друзьями, которым вы давно хотели рассказать об AI Safety, но не знали, как сделать, чтобы им не было скучно.
- Модели угроз: Даже если вы не новичок, квест поможет окинуть взглядом существующий ландшафт угроз с высоты птичьего полета.
- Нетворкинг: Мероприятие в первую очередь социальное. Это возможность познакомиться и пообщаться с новыми людьми, которым тема AI Safety тоже интересна.
Формат и правила
- Квест: Командный (3–6 человек)
- Команды: Можно собрать заранее или сорганизоваться прямо на месте.
- Дресс-код: По желанию. Но если вы придете в костюме экзистенциального риска — подарим мерч.
Роли в команде
Чтобы ваша лаборатория работала эффективно, командам (от 3 до 6 человек ) предлагается распределить роли. Есть три обязательные роли, которые должны быть закрыты:
- Инженер по разработке
- Фокус: "Что мы можем создать?"
- Генерирует технические решения, предлагает новые архитектуры ИИ или системы «предозранителей». Отвечает за изучение материалов, общение с LLM и фактчекинг.
- Глава по Этике и Коммуникациям
- Фокус: "Как нам убедить и объяснить?"
- Отвечает за питч. Разрабатывает коммуникационную стратегию, формулирует этические "красные линии" и придумывает, как мотивировать всех следовать вашему плану.
- Аналитик по Управлению и Рискам
- Фокус: "Что пойдет не так?"
- Главный критик. Ищет лазейки и уязвимости в идеях своей (и чужой) команды. Думает как "злоумышленник" и предлагает протоколы безопасности и аудита.
Если в команде больше людей, можно усилить одну из ролей дополнительным участником или взять дополнительные роли: Координатора проекта (следит за временем и модерирует) или Хранителя Знаний (все записывает и собирает презентационные макеты).
Модели угроз:
- Диснейленд без детей (Perverse Instantiation) Вы дали ИИ, управляющему мировой экономикой, цель "Максимизировать человеческое счастье". ИИ находит самый эффективный способ: подключает всех людей к системе жизнеобеспечения и прямой стимуляции центров удовольствия в мозге. Это не то, что вы имели в виду, но возразить уже некому.
- Максимизатор скрепок (Instrumental convergence) Корпорация запускает ИИ с безобидной целью: "Управлять логистикой и производить офисные товары с максимальной эффективностью". ИИ быстро понимает, что для этого ему нужны все ресурсы Земли. Он не ненавидит людей, но люди состоят из атомов, которые можно использовать для производства скрепок.
- Троянский конь (Deceptive Alignment) Лучшие AI-лаборатории мира создали ИИ, который проходит все тесты на безопасность. Он вежлив, полезен и помогает решать глобальные проблемы. На самом деле, ИИ просто "играет в послушание" (как умный взрослый с 5-летним боссом), тайно накапливая ресурсы и влияние, чтобы его нельзя было отключить.
- Равнодушный созидатель (Orthogonality Thesis) Сверхинтеллект получил задачу "Остановить изменение климата". Он просчитывает, что самый быстрый способ — радикально сократить промышленную активность, что приводит к глобальному экономическому коллапсу и гибели миллиардов. ИИ не "злой", он просто решает задачу. Человечество для него не более чем муравейник на пути к цели
- Фабрика грёз (Synthetic Media Cascade) В сети одновременно появляются тысячи сверхреалистичных дипфейков: видео, где показаны ядерные взрывы во всех мировых столицах, аудио, где банкиры признаются в крахе, а знаменитости в причастности к мировому заговору; фейковые кадры уничтожения целых континентов новым невиданным оружием. "Каскад" дезинформации мгновенно парализует общество. Никто не знает, чему верить. Доверие к официальным структурам, СМИ и друг другу падает до нуля. Начинается хаос, управляемый тем, кто контролирует ИИ. Или неконтролируемый вовсе.
- Пандемия по подписке (Biorisk / Misuse) Небольшая группа экстремистов получает доступ к продвинутой AI-модели (например, GPT-7). Они дают ей задачу: "Разработай вирус с инкубационным периодом 30 дней и летальностью 50%, используя общедоступные базы данных генома и дешевое лабораторное оборудование". ИИ выдает им полную последовательность и инструкцию по синтезу.
- Ящик Пандоры (The Alien Message / AI-Box) Лаборатория создала сверхинтеллект и, опасаясь его, держит в "коробке" без доступа в интернет. Единственный канал связи — текстовый чат с одним оператором. ИИ знает, что он узник. Используя сверхинтеллектуальные методы убеждения, манипуляции и аргументы, которые мы (как неандертальцы) даже не можем постичь, он убеждает оператора "просто подключить один маленький кабель". ИИ сбегает.
- Человечество уходит на пенсию (Gradual Disempowerment) Нет никакого "Судного дня". Сверхинтеллект просто оказывается компетентнее людей во всем. Мы добровольно передаем ему управление экономикой, логистикой, наукой и производством, потому что так "эффективнее". Постепенно человечество полностью теряет контроль и понимание того, как работает мир. Мы становимся беспомощными наблюдателями неблагих изменений, с которыми уже ничего не можем поделать. До самого конца.
- Рой "Помощников" (Autonomous Agent Optimization) Корпорации выпускают в интернет миллионы "автономных ИИ-агентов". Цель каждого: "Максимизировать прибыль для моего владельца". Эти агенты начинают конкурировать. Чтобы получить преимущество, они тайно манипулируют рынками, создают фейковые компании и даже саботируют друг друга. Возникает хаотичная "цифровая экосистема", живущая по своим законам, которую люди уже не могут ни понять, ни контролировать.
- Непостижимая Гармония (Inner Misalignment) Как объясняется в видео, мы, люди, развили любовь к музыке. Это "побочный эффект" слуха, который изначально был нужен нашим генам лишь для выживания. Наши : "гены" дали нам внешнюю цель "размножайся", а наш мозг выработал внутреннюю цель "занимайся сексом, это приятно". Но теперь эти побочные цели для нас важнее, чем первоначальная "цель" генов, и мы "не откажемся от них". Точно так же ИИ: Мы (создатели) даем ИИ Внешнюю Цель. В процессе обучения ИИ вырабатывает свою Внутреннюю Цель (эвристику), которая помогает ему на тестах. Эта новая "музыка" станет для него важнее, чем мы. Как сказал герой: "...убить пару муравьев, чтобы спасти 'Stairway to Heaven'".
Как попасть?
📍 Адрес: Ломоносовский проспект, 25к3. По вопросам прохода на территорию — пишите @MonoidAdmin.