Скоро Скачать Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Mr. Pin · 17/09/2025

Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Курс по Data Science для middle: senior-навыки за 6 недель

Подойдет для Data Scientists, Classic ML и NLP-инженеров уровня middle/middle+

Нужны базовые знания основ машинного обучения, математики и программирования

Будем писать на Python, но если ты программируешь на чем-то другом — это некритично. Вся практика будет применима на другие ЯП

В курсе осваиваем навыки, которые мешают расти мидлам

Как обнаружить проблемы в грязных данных в самом начале работы и сделать модель, устойчивую к дрейфу
Как учесть все инфраструктурные ограничения и раскатать модель на прод с первого раза без финансовых потерь
Как правильно мониторить деградацию моделей в проде, делать их стабильными и автоматически переобучать
Как строить хорошие признаки по нестабильным временным рядам — активности пользователей, курсу валют и др.
Как расти в зарплате через связку продуктовых и бизнес-метрик: увеличивать выручку и средний чек, а не техническую точность рекомендаций
Как тестировать раскатанную ML через A/B-тесты, избегать ложных выводов и потерь у смежных бизнес-подразделений

Программа

6 недель точечно закрываем каждый блок-фактор

Не просто теория, а выжимка всего опыта от TeamLead из Яндекса. Лучшие практики из BigTech, разбор реальных бизнес-кейсов и много кода, который ты напишешь самостоятельно

Вводная часть
Неделя 1. Feature Engineering, Bias и согласованность данных
Неделя 2. Модели: оптимизация и нестандартные сценарии использования ML
Неделя 3. Real-time ML, потоковая обработка, мониторинг и обслуживание
Неделя 4. Feature Store, MLOps, оптимизация ресурсов
Неделя 5. Связка продуктовых и бизнес-метрик
Неделя 6. Дипломный проект

Спойлер: Подробно:
Вводная часть

проблематика курса: основные проблемы с данными, инфраструктурные сложности, слабая связь модельных и бизнес метрик

основные различия между датасетами обучения и работой

про табличные и текстовые данные из курса, отражающие реальные бизнес-процессы из финансовой, рекламной и других digital-сфер

тонкости применения популярных в BigTech моделей для задач классификации, регрессии, ранжирования и прогнозирования — Catboost, Tabnet, DSSM, Bert

Практика:

BigTech-кейс с изменением поведения модели в продакшне, которое не определить стандартными методами. Подробный разбор предпосылок и последствий. Разбор методов оценки стабильности факторов, которые помогают избежать проблемы в продакшне

*на основе сервиса для настройки рекламы

Неделя 1. Feature Engineering, Bias и согласованность данных

На этой неделе учимся:

видеть основные проблемы, которые встречаются в продакшн данных и бороться с ними

генерить признаки по реальным данным, оценивать их полезность и стабильность

спасать модели от переобучения, а бизнес — от финансовых потерь

Урок № 1 — Feature Engineering для продакшена

Теория:

основные методы feature engineering

Практика:

генерация фичей в условиях нестабильных данных

PSI, Jensen-Shannon Divergence

дисперсия признаков

различное поведение в зависимости от среза

потеря информации при нормировке

работа с категориальными переменными в продакшене

обработка новых категорий

хэширование

Домашняя работа:

генерация стабильных фичей из сырых данных. Отбор полезных, которые лучше всего объясняют таргет

Урок № 2 — Смещения (Bias) и согласованность данных

Теория:

продвинутые методы детекции и коррекции bias

Causal Inference для рекомендательных систем

Fairness Metrics

Reweighing, Sample Balancing, Fair Representation Learning

Синхронизация данных из распределенных источников

CDC

event sourcing

Практика:

синхронизация данных из двух источников разного типа, восстановление истории и замерка лага

Домашняя работа:

обнаружить и исправить временное смещение (temporal shift) в продакшн-данных

Неделя 2. Модели: оптимизация и нестандартные сценарии использования ML

На этой неделе учимся:

изучаем best practices BigTech-компаний для решения задач с различными данными

разбираем лучшие модели для табличных и текстовых данных, а также критерии их применения

учимся контролировать инференс изученных моделей и четко понимать, для каких задач использовать Bert, DSSM, XGBoost

Урок № 3 — База по моделям

Теория:

что и где используется в продакшн на примере кейсов из BigTech

Catboost vs Tabnet

NLP applications (Bert, DSSM)

интерпретируемость моделей

продвинутая борьба с переобучением

Практика:

настраиваем, обучаем, проверяем изученные модели на задаче с реальными данными

Урок № 4 — Оптимизация ML-моделей для продакшена

Теория:

квантование, дистилляция и pruning моделей (практические примеры из NLP/CV)

как выбирать между скоростью и точностью (cost vs quality)

Практика:

разбираем дистилляцию и pruning моделей на примере нейросетей для текстов

Домашняя работа:

уменьшить размер модели в 2 раза с минимальной потерей качества

Урок № 5 — Нестандартные сценарии использования ML

Теория:

модели для данных с задержкой: прогнозирование с incomplete data, Semi-supervised learning, Proxy labeling, Feature Lagging

ансамблирование в условиях ограниченных ресурсов

Практика:

адаптируем ML-решение задачи к данным с задержками, разбираем применимость в зависимости от характера задержек

Домашняя работа:

построить модель, работающую с частичными данными (имитация задержек)

Неделя 3. Real-time ML, потоковая обработка, мониторинг и обслуживание

На этой неделе учимся:

посмотрим на жизненный цикл модели в продакшене и best practices в MLOps инструментах

научимся чинить прод, проектировать архитектуру, взаимодействовать со смежными командами и писать свои процессы в рамках инфраструктуры BigTech

Урок № 6 — Real-time ML и потоковая обработка

Теория:

архитектура streaming-пайплайнов: Kafka + Flink/Spark Streaming

батчинг, кэширование, GPU-ускорение

Практика:

адаптиция признаков и моделей к свойствам архитектуры, функциональным и нефункциональным требованиям

Домашняя работа:

настроить потоковый пайплайн для обработки данных с задержкой

Урок № 7 — Мониторинг и обслуживание моделей

Теория:

детекция дрифта + автоматический ретранинг (Evidently, MLflow)

использование AutoML, полезные функции

как дебажить падающую модель в продакшене

Практика:

реализация систем мониторинга для моделей

Домашняя работа:

настроить алертинг при дрифте данных

Неделя 4. Feature Store, MLOps, оптимизация ресурсов

На этой неделе учимся:

научимся планировать ресурсы и масштабировать ML-продукты

поговорим про CI/CD и релизный цикл

научимся считать ресурсы CPU, GPU для cервисов, тестировать и контролировать релизы

Урок № 8 — Feature Store и MLOps

Теория:

когда и зачем нужен Feature Store (Hopsworks, Feast)

интеграция с CI/CD

тестирование моделей перед деплоем: Data Integrity Tests, Feature Tests, Model Quality tests

Практика:

создание, наполнение, взаимодействие с Feature Store

Домашняя работа:

разработка тестов для моделей и признаков в CI/CD

Урок № 9 — Оптимизация ресурсов

Теория:

как снизить стоимость ML в облаке: автоскейлинг, spot instances

Практика:

кейс: как экономить на инференсе на примере Spotify

Неделя 5. Связка продуктовых и бизнес-метрик

Урок № 10 — Продуктовые метрики и эксперименты

Теория:

как связать продуктовые и бизнес-метрики

как оценить влияние модели на бизнес (incremental lift, CUPED).

ликбез по A/B тестам для Data Scientist

почему A/B тесты могут врать (псевдо-рандомизация, сезонность)

Практика:

разработка интегральной метрики, учитывающей счастье пользователя и бизнес метрики для digital продукта.

проверка статистической значимости изменений

Домашняя работа:

промоделировать A/B тест внедрения модели, оценить значимость изменения целевой метрики

Урок № 11 — Что делать, когда ML не работает

BigTech-кейсы, где ML проигрывает простым правилам

как аргументировать отказ от ML перед бизнесом

Неделя 6. Дипломный проект

Автоматизировать обработку обращений клиентов с помощью классификации обращений.

Проект будет разбит на 2 этапа:

бизнес часть с формулировкой требований и полезности

разработка архитектуры и техническая реализация MVP

По желанию проект можно будет защитить в live-режиме и получить фидбек

В итоге прокачаем hard’ы до уровня Senior в BigTech и научимся:

Работать с «грязными» данными, искать смещения и дрифты
Использовать Feature engineering в real time системах и генерировать признаки с пониманием вычислительной сложности
Оптимизировать ML-модели для продакшна
Использовать специфику актуальных ML/DL моделей для работы с табличными и текстовыми данными
Контролировать жизненный цикл моделей в продакшне и строить мониторинги
Работать с MLOps инструментами и взаимодействовать с инфраструктурой

Преподает: Дмитрий Сафонов, Data Science Team Lead в Яндекс

разрабатываю алгоритмы антифрода рекламы, руковожу ML-командой - Яндекс

cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов - Quantum Brains

преподавал анализ данных на Python - СПБГЭУ

Тариф Стандарт

Стоимость: 52600 руб.

Этот курс доступен с подпиской: Премиум и Премиум MAX

Скоро Скачать Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Mr. Pin

Редактор

Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Похожие темы

Статистика форума

Поделиться страницей

Скоро Скачать Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Mr. Pin

Редактор

Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]​

Похожие темы

Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]