Новости ML, AI и technical safety

10 октября 2025 г.

20:00 - 22:00

Москва, ЦДО Моноид

Это регулярные встречи дискуссионной группы по ML, AI и technical safety. Мы ищем статьи, которые что-то значат для области, чтобы их обсудить и попытаться понять и их смысл, и их роль.

На этой неделе читаем:

Reward Is Not the Optimization Target - общетеоретическое заявление о довольно важной динамике RL: заданная нами функция вознаграждения не есть преследуемая обученным агентом функция даже в достаточно идеальном случае.
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? - современный анализ схожего эффекта: авторы анализируют динамику конкретно RLHF-подобных методов.

Чтобы поучаствовать во встрече, нужно:

️прочитать статью,
️прийти и обсудить прочитанное.

📍Адрес: Ломоносовский проспект, 25к3, по вопросам прохода на территорию пишите @MonoidAdmin