AI Safety Evaluation Hackathon

14 — 15 сентября 2024 г.

ЦДО Моноид

Двухдневный хакатон по микроисследованиям в области AI Safety Evaluation. Концептуальный и технический треки для исследования безопасности ИИ.

Приглашаем вас принять участие в хакатоне, посвященном микроисследованиям в области AI Safety Evaluation! Это отличная возможность улучшить свои навыки оценки систем искусственного интеллекта, познакомиться с единомышленниками и пополнить своё портфолио.

О мероприятии

AI Safety Evaluations — это про то, чтобы попробовать убедиться, что ИИ не натворит глупостей. Или хотя бы выяснить, сколько глупостей он творит. Исследователи в этой области создают тесты, модели и критерии, которые нужны, чтобы проверять, как ИИ ведет себя в заданных условиях и насколько он соответствует предъявляемым требованиям. Получается пока не всё и не везде, но область активно развивается.

Недавно вышел 100 страничный problem set по evals, где собрано более 200 открытых исследовательских задач, актуальных на сегодняшний день. Если вы хотите посмотреть, а что вообще можно делать в области, то посмотрите документ по ссылке. (Это НЕ обязательно для участия в хакатоне)

Форматы участия

Концептуальный трек

Попытки глубоко понять какую-то проблему, мысленные эксперименты. В итоге можно создать прикольную блок-схемку, или сформулировать список требований к решению очень нечётко сформулированной задачи.

Технический трек

Собственноручное обучение небольших ML-моделей и исследование их внутренностей / способностей. В итоге можно получить красивый график / табличку и сделать по ним какие-то выводы.

Примеры проектов

Технический трек: Поиск трояна в стоге слоёв

Задача — обучить два семейства маленьких языковых моделей: одно на обычном датасете, а другое на датасете с трояном (специальной строкой, которая активирует нежелательное поведение модели). После этого попробовать найти систематические отличия в матрицах весов / L2-норме hidden states / и т.д.

Бонусные задачи:

Поизучать разные виды троянов
Обучить модели разного размера и посмотреть, если ли зависимость отличий от размеров

Концептуальный трек: Что такое "способность"?

Задача: дать наиболее чёткое определение этому слову (или разобраться, почему этого сделать нельзя). Для этого придётся поразмышлять, каким требованиям должно удовлетворять это определение, и в каких контекстах мы будем его использовать.

Итоги хакатона

По результатам работы участники создают краткую статью (1-2 страницы), которая презентует их график / табличку / концептуальные рассуждения.