AI Safety курс по оценке LLM: подходы, бенчмарки и методология | Моноид
Моноид
AI Safety курс по оценке LLM: подходы, бенчмарки и методология

AI Safety курс по оценке LLM: подходы, бенчмарки и методология

14 марта — 21 июня 2026 г.
В ЦДО Моноид или онлайн

Курс, посвященный оценке LLM и агентных систем. Формирует системное понимание принципов, инструментов и практик оценки нейросетей. А также учит разрабатывать для них надёжные и содержательные метрики.

Участники научатся:

  • Анализировать существующие бенчмарки и метрики (MMLU, TruthfulQA, BIG-bench и др.);
  • Применять современные инструменты (Inspect AI, OpenAI Evals, Im-eval-harness, Ragas);
  • Проектировать собственные оценки для LLM и агентов;
  • Разрабатывать дизайн эксперимента и проводить собственные исследования в области evals;
  • Понимать ограничения и области применимости различных подходов к evals.

По окончанию курса:

  • проект в портфолио;
  • сертификат о прохождении курса;
  • абонемент на 3 месяца бесплатного коворкинга в ЦДО Моноид;
  • карьерная консультация и приглашение на онлайн-конференцию для лучших студентов

Содержание курса:

Теоретическая часть:

  • Основные идеи и концепции в evals;
  • Подходы и cтандарты;
  • Инструменты, метрики и разработка бенчмарков;
  • Оценка агентских систем;
  • Ограничения, сравнение подходов и открытые вопросы области

Практика:

  • Настройка среды и запуск базовой оценки;
  • Реализация стандартного бенчмарка (частичный запуск MMLU);
  • Проектирование и реализация кастомной оценки (на примере набора данных Jigsaw);
  • Сборка и тестирование простого ReAct-агента;
  • Работа в рамках специализированных треков для подготовки к проектной части

Формат:

Курс состоит из двух этапов: учебного и проектного.

  • Учебный (5 недель):
    • Изучаются теоретические основы evals и практика по построению оценок LLM и агентов, проходят еженедельные групповые встречи, семинары, консультации и коворкинги.
    • Еженедельные задания:
      • Техническое: ноутбуки по темам курса — реализовать и проанализировать методы, разобранные на неделе.
      • Концептуальное: короткая исследовательская заметка с обоснованием методологических решений и анализом их сильных и слабых сторон
    • Нагрузка: 15 часов в неделю
  • Проектный (5 недель):
    • Работа с ментором над индивидуальным или командным проектом (до 4 человек)
    • Менторы из METR, Apollo Research, AI Lab Skolkovo, AIRI institute, ЦДО Моноид, Яндекс и др.
    • Нагрузка: от 10 часов в неделю

Требования:

  • навыки программирования на Python;
  • базовое понимание концепций AI Safety или готовность пройти 6-часовой экспрес-курс;
  • опыт в Evals приветствуется, но не является обязательным;
  • опыт в проведении исследований и дизайне экспериментов приветствуется, но не является обязательным

Расписание курса:

  • Приём заявок — с 23 января по 22 февраля;
  • Дедлайн ответа на заявку — 1 марта;
  • Публикация материалов к первым занятиям — 7 марта;
  • Общая встреча — 14 марта;
  • Учебный этап 5 недель — с 16 марта по 19 апреля;
  • Выпускной — 25, 26 апреля;
  • Подача заявок на проектный этап — с 20 апреля по 4 мая;
  • Дедлайн ответов на заявки — 10 мая;
  • Проектный этап 5 недель — с 11 мая по 14 июня;
  • Защиты проектов 20, 21 июня;
  • Авторы лучших проектов получат приглашение на участие в онлайн конференции в июле

Дополнительная информация:

  • Курс бесплатный, но количество мест ограничено, поэтому заявки отбираются на конкурсной основе;
  • Формат: либо оффлайн в Москве, либо онлайн