Моноид
Новости ML, AI и technical safety

Новости ML, AI и technical safety

17 октября 2025 г.
20:00 - 22:00
Москва, ЦДО Моноид

Это регулярные встречи дискуссионной группы по ML, AI и technical safety. Мы ищем статьи, которые что-то значат для области, чтобы их обсудить и попытаться понять и их смысл, и их роль.

На этой неделе читаем:

  1. Corrigibility - пример концептуального подхода к проблеме, в данном случае к проблеме корректируемости: как должен, математически, выглядеть некоторый абстрактный агент, который принимает коррекцию своего поведения от внешнего источника?
  2. Fast Adversarial Attacks on Language Models In One GPU Minute - статья об атаках на LLM, математическое/алгоритмическое представление "джейлбрейка".

Чтобы поучаствовать во встрече, нужно:

  • ️прочитать статью,
  • ️прийти и обсудить прочитанное.

📍Адрес: Ломоносовский проспект, 25к3, по вопросам прохода на территорию пишите @MonoidAdmin