| Моноид
Моноид

Программа курса состоит из двух этапов:

  • Учебный этап:
    • Теоретическое и практическое изучение материалов курса, в фасилитируемых группах, с преподавателями и самостоятельно
    • 5 недель: с 24 января по 7 марта 2026
  • Проектный этап:
    • Работа с ментором над проектом, индивидуально или командой до 4 человек
    • 4 недели: с 6 марта по 12 апреля 2026

Про нагрузку:

Содержание учебного этапа:

  • Теоретические материалы для самостоятельного изучение: ~5 часов чтения в течении недели, раз в неделю, всего 5 раз
  • Групповые встречи: раз в неделю, всего будет 5 встреч, длительность встреч 2 часа, посещение обязательно (теория)
  • Семинары: раз в неделю, всего 5 встреч, длительность 4 часа, посещение по желанию (теория)
  • Q&A с преподавателями: раз в неделю, всего на учебном этапе будет 5 таких встреч, длительность 2 часа, посещение по желанию (теория + практика)
  • Коворкинг: 3 раза в неделю, длительность 1-4 часа, посещение по желанию (теория + практика)
  • Технические задания: раз в неделю, всего будет таких 5 заданий, занимает ~3-5 часов; выполняется самостоятельно или с помощью одногруппников и преподавателей на коворкингах и Q&A; практические задания по темам теоретических материалов соответствующей недели курса реализуемое с помощью инспекта и других инструментов, навыки применения которых предполагает данный курс; эти задания обязательны к выполнению
  • Концептуальные задания: раз в неделю, всего будет таких 5 заданий, занимает ~1-2 часа; выполняется самостоятельно или с помощью одногруппников и преподавателей на коворкингах и Q&A; представляет собой эссе по методологии принципов построения темы теоретических материалов соответственной недели курса; эти задания обязательны к выполнению

Содержание проектного этапа:

  • Q&A с преподавателями: раз в неделю, всего на проектном этапе будет 5 таких встреч, длительность 2 часа, посещение по желанию
  • Коворкинг: 3 раза в неделю, длительность 1-4 часа, посещение по желанию
  • Совместная работа с ментором над проектом: еженедельно ~2-4 часа
  • Самостоятельная работа над проектом: ~8 часов
  • Предзащита проекта: слайды презентации и текстовый документ с материалами проекта, который вы будете подавать на защиту
  • Защита проекта: онлайн или оффлайн мероприятие (в зависимости от вашей формы участия), где участники курса презентуют свой проект перед одногруппниками и преподавателями;
    • дата защит для онлайн участников курса - 18 апреля
    • дата защит для офлайн участников курса - 19 апреля
  • Выпускной: афтерпати сразу через 30 минут после окончания защит, финальное неформальное мероприятие, нетворкинг, поздравления; также для тех, кто может присутствовать на выпускном 19 апреля в Москве будет выдача сертификатов, шампанское, клубника

Программа теоретического этапа:

  • Почему: Основы и Обоснование
    • Фокус: Основные мотивы Evals: почему мы измеряем, что мы стремимся понять и философские предпосылки науки об Evals.
  • Как: Подходы и Стандарты
    • Фокус: Как различные лаборатории и фреймворки проводят Evals; сравнительные методологии и выборы дизайна.
  • Что: Инструменты, Метрики и Разработка Бенчмарков
    • Фокус: Техническое и концептуальное понимание того, как создавать, выбирать и проверять тесты и метрики.
  • Агенты: Оценка за Пределами Статических Моделей
    • Фокус: Оценка агентских систем и скелетов; как Evals адаптируются, когда LLM действуют через циклы рассуждений и использование инструментов.
  • И что с того: Критические и Продвинутые Темы
    • Фокус: углубленные дискуссии и критика Evals-практик: ограничения, сравнение подходов автоматизации и ручного анализа, и новые фронтиры.

Темы практических заданий учебного этапа:

  • Настройка среды и запуск базовой оценки
  • Реализация стандартного бенчмарка (частичный запуск MMLU)
  • Проектирование и реализация кастомной оценки (на примере набора данных Jigsaw)
  • Сборка и тестирование простого ReAct-агента
  • Работа в рамках специализированных треков (продвинутая оценка агентов в песочнице или «инвазивные» Evals с использованием интерпретируемости)