Новости ML, AI и technical safety
Это регулярные встречи дискуссионной группы по ML, AI и technical safety. Мы ищем статьи, которые что-то значат для области, чтобы их обсудить и попытаться понять и их смысл, и их роль.
На этой неделе читаем:
- Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models - описание техники SHIFT для подстройки сетей с опорой на техники интерпретации.
- Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples - свежая статья о векторе атаки "отравление обучающего корпуса".
Чтобы поучаствовать во встрече, нужно:
- ️прочитать статью,
- ️прийти и обсудить прочитанное.
📍Адрес: Ломоносовский проспект, 25к3, по вопросам прохода на территорию пишите @MonoidAdmin