Новости ML, AI и technical safety

5 сентября 2025 г.

20:00 - 22:00

Москва, ЦДО Моноид

Это регулярные встречи дискуссионной группы по ML, AI и technical safety. Мы ищем статьи, которые что-то значат для области, чтобы их обсудить и попытаться понять и их смысл, и их роль.

На этой неделе читаем:

Explaining and Harnessing Adversarial Examples - о намеренном введении нейросетей в заблуждение, как и почему это работает. По меркам отрасли статья древняя (2014!), но высказанные высокоуровневые соображения остаются актуальными по сей день.
Alignment faking in large language models (внимание: основная статья 53 страницы, прочитайте заранее) - о реальных наблюдениях эффектов по мотивам Risks from learned optimization предыдущей недели. Какие реально наблюдаемые эффекты при обучении моделей выглядят как противостояние мета- и меса-оптимизатора, если рассматривать происходящее через эту призму?

Чтобы поучаствовать во встрече, нужно:

️прочитать статью,
️прийти и обсудить прочитанное.

📍Адрес: Ломоносовский проспект, 25к3, по вопросам прохода на территорию пишите @MonoidAdmin