Новости ML, AI и technical safety

19 сентября 2025 г.

20:00 - 22:00

Москва, ЦДО Моноид

Это регулярные встречи дискуссионной группы по ML, AI и technical safety. Мы ищем статьи, которые что-то значат для области, чтобы их обсудить и попытаться понять и их смысл, и их роль.

На этой неделе читаем:

Concrete Problems in AI Safety - обзор проблем безопасности с практическим прицелом, в противоположность более теоретическим построениям Хубингера или Уэнтворса. Рекомендуется сравнить этот прогноз девятилетней давности с текущим состоянием.
Mechanistic Interpretability for AI Safety -- A Review - мы достаточно много поминаем mech-interp на обсуждениях, но до жирафа дошло, что собственно статей о нём мы не брали. Обзор суммирует разные результаты и подходы; на стр. 32 есть забавный словарик терминов.

Чтобы поучаствовать во встрече, нужно:

️прочитать статью,
️прийти и обсудить прочитанное.

📍Адрес: Ломоносовский проспект, 25к3, по вопросам прохода на территорию пишите @MonoidAdmin