AI Safety курс по оценке LLM: подходы, бенчмарки и методология
Курс, посвященный оценке LLM и агентных систем. Формирует системное понимание принципов, инструментов и практик оценки нейросетей. А также учит разрабатывать для них надёжные и содержательные метрики.
Участники научатся:
- Анализировать существующие бенчмарки и метрики (MMLU, TruthfulQA, BIG-bench и др.);
- Применять современные инструменты (Inspect AI, OpenAI Evals, Im-eval-harness, Ragas);
- Проектировать собственные оценки для LLM и агентов;
- Разрабатывать дизайн эксперимента и проводить собственные исследования в области evals;
- Понимать ограничения и области применимости различных подходов к evals.
По окончанию курса:
- проект в портфолио;
- сертификат о прохождении курса;
- абонемент на 3 месяца бесплатного коворкинга в ЦДО Моноид;
- карьерная консультация и приглашение на онлайн-конференцию для лучших студентов
Содержание курса:
Теоретическая часть:
- Основные идеи и концепции в evals;
- Подходы и cтандарты;
- Инструменты, метрики и разработка бенчмарков;
- Оценка агентских систем;
- Ограничения, сравнение подходов и открытые вопросы области
Практика:
- Настройка среды и запуск базовой оценки;
- Реализация стандартного бенчмарка (частичный запуск MMLU);
- Проектирование и реализация кастомной оценки (на примере набора данных Jigsaw);
- Сборка и тестирование простого ReAct-агента;
- Работа в рамках специализированных треков для подготовки к проектной части
Формат:
Курс состоит из двух этапов: учебного и проектного.
- Учебный (5 недель):
- Изучаются теоретические основы evals и практика по построению оценок LLM и агентов, проходят еженедельные групповые встречи, семинары, консультации и коворкинги.
- Еженедельные задания:
- Техническое: ноутбуки по темам курса — реализовать и проанализировать методы, разобранные на неделе.
- Концептуальное: короткая исследовательская заметка с обоснованием методологических решений и анализом их сильных и слабых сторон
- Нагрузка: 15 часов в неделю
- Проектный (5 недель):
- Работа с ментором над индивидуальным или командным проектом (до 4 человек)
- Менторы из METR, Apollo Research, AI Lab Skolkovo, AIRI institute, ЦДО Моноид, Яндекс и др.
- Нагрузка: от 10 часов в неделю
Требования:
- навыки программирования на Python;
- базовое понимание концепций AI Safety или готовность пройти 6-часовой экспрес-курс;
- опыт в Evals приветствуется, но не является обязательным;
- опыт в проведении исследований и дизайне экспериментов приветствуется, но не является обязательным
Расписание курса:
- Приём заявок — с 23 января по 22 февраля;
- Дедлайн ответа на заявку — 1 марта;
- Публикация материалов к первым занятиям — 7 марта;
- Общая встреча — 14 марта;
- Учебный этап 5 недель — с 16 марта по 19 апреля;
- Выпускной — 25, 26 апреля;
- Подача заявок на проектный этап — с 20 апреля по 4 мая;
- Дедлайн ответов на заявки — 10 мая;
- Проектный этап 5 недель — с 11 мая по 14 июня;
- Защиты проектов 20, 21 июня;
- Авторы лучших проектов получат приглашение на участие в онлайн конференции в июле
Дополнительная информация:
- Курс бесплатный, но количество мест ограничено, поэтому заявки отбираются на конкурсной основе;
- Формат: либо оффлайн в Москве, либо онлайн