
AI Safety Evaluation Hackathon
Приглашаем вас принять участие в хакатоне, посвященном микроисследованиям в области AI Safety Evaluation! Это отличная возможность улучшить свои навыки оценки систем искусственного интеллекта, познакомиться с единомышленниками и пополнить своё портфолио.
О мероприятии
AI Safety Evaluations — это про то, чтобы попробовать убедиться, что ИИ не натворит глупостей. Или хотя бы выяснить, сколько глупостей он творит. Исследователи в этой области создают тесты, модели и критерии, которые нужны, чтобы проверять, как ИИ ведет себя в заданных условиях и насколько он соответствует предъявляемым требованиям. Получается пока не всё и не везде, но область активно развивается.
Недавно вышел 100 страничный problem set по evals, где собрано более 200 открытых исследовательских задач, актуальных на сегодняшний день. Если вы хотите посмотреть, а что вообще можно делать в области, то посмотрите документ по ссылке. (Это НЕ обязательно для участия в хакатоне)
Форматы участия
Концептуальный трек
Попытки глубоко понять какую-то проблему, мысленные эксперименты. В итоге можно создать прикольную блок-схемку, или сформулировать список требований к решению очень нечётко сформулированной задачи.
Технический трек
Собственноручное обучение небольших ML-моделей и исследование их внутренностей / способностей. В итоге можно получить красивый график / табличку и сделать по ним какие-то выводы.
Примеры проектов
Технический трек: Поиск трояна в стоге слоёв
Задача — обучить два семейства маленьких языковых моделей: одно на обычном датасете, а другое на датасете с трояном (специальной строкой, которая активирует нежелательное поведение модели). После этого попробовать найти систематические отличия в матрицах весов / L2-норме hidden states / и т.д.
Бонусные задачи:
- Поизучать разные виды троянов
- Обучить модели разного размера и посмотреть, если ли зависимость отличий от размеров
Концептуальный трек: Что такое "способность"?
Задача: дать наиболее чёткое определение этому слову (или разобраться, почему этого сделать нельзя). Для этого придётся поразмышлять, каким требованиям должно удовлетворять это определение, и в каких контекстах мы будем его использовать.
Итоги хакатона
По результатам работы участники создают краткую статью (1-2 страницы), которая презентует их график / табличку / концептуальные рассуждения.