Админ. и Програм.  Скачать [Виталий Лихачев] [Balun.Courses] Observability, как в BigTech. Тариф Стандарт (2025)

superslivman

Администратор
Администратор
Регистрация
02/07/2020
Сообщения
30,581
Реакции
3,938
[Виталий Лихачев] [Balun.Courses] Observability, как в BigTech. Тариф Стандарт (2025) 0.webp Слив курса Observability, как в BigTech [Тариф Стандарт] [Balun.Courses] [Виталий Лихачев]

Глубокий курс о том, как поставлять логи, метрики, трейсы, делать информативные дашборды, быстро устранять инциденты и правильно интерпретировать данные

Вопросы, на которые ответит курс:

  • Как правильно строить дашборды, алерты и как интерпретировать данные на уровне Senior’ов и TeamLead'ов
  • Как строить полезные метрики, которые не расходуют лишние ресурсы на хранение
  • Как писать логи, в которых потом легко разобраться
  • Как правильно оценить нагрузку для новой фичи или сервиса и уменьшить количество инцидентов
  • Как найти причину инцидента за пару минут и всегда держать руку на пульсе
  • Как с помощью Observability экономить деньги работодателю, показывать бизнес-метрики и повышать себе ЗП на perfomance review
За 2,5 месяца изучаем best practices, которые используют в BigTech

Глубоко изучишь основы и лучшие практики Observability: метрики, логи, трейсы и многое другое

Научишься инструментировать любые сервисы для достижения хорошего observability

Научишься эксплуатировать сервисы: настройка, масштабирование и оптимизация инфраструктуры для сбора метрик, настройка хранилищ и систем алертинга

Построишь эффективные и не перегруженные дашборды для мониторинга состояния системы и приложений

Научишься управлять стабильностью системы и предсказывать ее поведение

Изучишь все плюсы и минусы Prometheus, Grafana Loki, Jaeger и поймешь, что и когда нужно использовать

Программа курса:

  • Урок 1. Введение в Observability
  • Урок 2. Метрики: основные концепции и работа с ними
  • Урок 3. Хранилища метрик и их выбор
  • Урок 4. Визуализация и управление метриками
  • Урок 5. Логирование и структурированные логи
  • Урок 6. Трейсинг
  • Урок 7. Оптимизация наблюдаемости и оптимизация сервисов
  • Урок 8. Управление алертингом
  • Урок 9. Использование метрик для управления поведением приложения
  • Урок 10. Observability как часть SRE — практики и проблемы эксплуатации
  • Урок 11. Стратегии для больших систем

Спойлер: Программа подробно:
Урок 1 Введение в Observability

Теория:

• Что такое Observability: основные аспекты (метрики, логи, трейсы, профили).

• Зачем нужна наблюдаемость для микросервисов.

• Структурные отличия observability для монолитов и микросервисов.

• Инструменты Observability: обзор (Prometheus, Graphite, Grafana, Grafana Alloy, Grafana Pyroscope, Grafana Tempo, OpenTelemetry, Loki, Jaeger, Clickhouse).

Практика:

• Настройка базового проекта на Go.

• Интеграция базового мониторинга с Prometheus и с push gateway.

• Интеграция с graphite

• Интеграция с Loki

• Примеры использования инструментов observability

• Пример сбора runtime-метрик golang приложения.

Урок 2 Метрики: основные концепции и работа с ними

Теория:

• Разные подходы к работе с метриками: push vs pull.

• Архитектура Prometheus.

• Кардинальность метрик: что это и почему важно.

• Влияние системы сбора метрик на производительность.

• Эффективное именование метрик

• Разница бизнес метрик и технических метрик

• Влияние метрик на принятие бизнес решений

Практика:

• Создание и экспорт пользовательских метрик: счетчики, гистограммы, таймеры, скаляры (gauges), summaries.

• Анализ влияния высокой кардинальности на производительность.

Урок 3 Хранилища метрик и их выбор

Теория:

• Особенности архитектуры хранилищ метрик (Prometheus TSDB, VictoriaMetrics, Thanos, Graphite, Clickhouse).

• Выбор хранилища в зависимости от нагрузки и объемов данных.

• Проблемы хранения большого объема данных: retention, агрегация, компрессия.

Практика:

• Оптимизация сбора метрик prometheus с тяжелых endpoints

• Антипаттерны реализации /metrics в связке с prometheus

• Настройка локального Prometheus в связке с VictoriaMetrics и удаленного хранилища.

• Использование graphite.

• Импорт/Экспорт метрик.

• Сравнение производительности при использовании разных хранилищ.

Урок 4 Визуализация и управление метриками

Теория:

• Лучшие практики построения дашбордов.

• Антипаттерны построения дашбордов.

• Типы графиков и их применение: временные ряды, heatmap, гистограммы, gauges, etc.

• Как избежать перегруженных дашбордов.

• 4 Golden Signals и их значение для мониторинга.

• RED/USE методы построения дашбордов

Практика:

• Управление метриками: агрегация, квантили, экспоненциальное скользящее среднее.

• Создание дашбордов в Grafana для анализа Golden Signals.

• Практическое задание: построить дашборд для микросервиса.

• Продвинутая настройка grafana: версионирование дашбордов, интеграция с несколькими источниками данных, переменные, зависимости переменных, кастомные визуализации, annotations, группировка панелей

Урок 5 Логирование и структурированные логи

Теория:

• Подходы к логированию: текстовые и структурированные логи.

• Стандарты форматирования логов (JSON, OpenTelemetry Logs).

• Фильтрация и нормализация логов

• Скрытие конфиденциальной информации

• Уход от ELK в сторону grafana stack, плюсы и минусы использования ELK

Практика:

• Интеграция структурированного логирования с logrus или zap, использование slog

• Настройка Loki для агрегации логов.

• Использование fluentbit для фильтрации и отправки логов.

• Написание запросов в Loki для анализа логов.

• Уменьшение объема логов без потери данных.

Урок 6 Трейсинг

Теория:

• Что такое трейсы и зачем они нужны.

• Основы работы OpenTelemetry Trace.

• Корреляция трейсов, логов и метрик.

• OpenTelemetry как единый стандарт для метрик, логов и трейсов

• Архитектура и возможности OpenTelemetry

• Преимущества и сложности перехода на OpenTelemetry.

• Observability асинхронных систем

• Автоматическая интеграция OpenTelemetry на уровне инфраструктуры (http, sql), интеграция и корреляция на стыке систем (сервис + БД + API gateway)

• Обзор последних трендов: eBPF для мониторинга (OpenTelemetry), AIOps.

Практика:

• Интеграция OpenTelemetry в приложение. Golang zero code instrumentation

• Настройка Jaeger для распределенного трейсинга.

• Настройка Grafana Alloy для трейсинга

• Анализ проблем на основе трейсов (высокая latency, ошибки)

• Корреляция логов/метрик/трейсов (OpenTelemetry semantic conventions.

• Отладка сети с помощью OpenTelementry

• Автоматизация прокидывания requestId сквозь разные слои сервисов

• Миграция с Prometheus + Jaeger на OpenTelemetry.

• Настройка сборщиков для метрик, логов, трейсов через OpenTelemetry Collector.

Урок 7 Оптимизация наблюдаемости и оптимизация сервисов

Теория:

• Проблема избыточности данных: что собирать, а что нет.

• Автоматизация интеграции метрик и логов в большое количество сервисов.

• Влияние нагрузки от системы наблюдаемости на производительность.

• Выбор агрегируемых данных/агрегация метрик.

• Проблемы мониторинга микросервисов: автоматическое обнаружение сервисов, динамическое масштабирование.

• Adaptive metrics – удаление неиспользуемых метрик

Практика:

• Настройка rate-лимитов для систем сбора метрик.

• Сэмплирование трейсов.

• Отладка долгих запросов, анализ причин деградации

• Создание шаблона для быстрой интеграции метрик и логов в новый сервис.

• Измерение влияния observability на приложение.

• Использование pprof для анализа (grafana pyroscope, flamegraphs), golang continuous profiling

• Traces to profiles

• Управление доступом к метрикам, логам, трейсам, аудит

Урок 8 Управление алертингом

Теория:

• Как писать запросы для алертов (prometheus, graphite)

• Алерты из метрик, алерты из логов

• Настройка порогов для Golden Signals.

• Предотвращение перегрузки системы алертинга.

• Автоматизация алертинга.

• Дашборды для SLO

Практика:

• Настройка Alertmanager.

• Настройка алертинга в Grafana.

• Написание запросов для сложных алертов.

• Интеграция с уведомлениями (Slack, Email, PagerDuty).

• Маскирование ошибок неправильными запросами (примеры: transformNull, пропадание метрики)

Урок 9 Использование метрик для управления поведением приложения

Теория:

• Взаимосвязь метрик и механизмов устойчивости (rate limiters, circuit breakers).

• Применение метрик для автоматической деградации.

• Подготовка системы к пиковым нагрузкам.

• Метрики для управления поведением системы:

• Примеры: Circuit Breakers, Graceful Degradation.

• Адаптивные rate limiters.

• Использование метрик для прогнозирования:

• Сезонные паттерны нагрузки.

• Прогнозирование с использованием ML-библиотек.

Практика:

• Реализация graceful degradation на основе метрик.

• Использование метрик для предсказания нагрузки (на основе данных прошлого года).

• Настройка circuit breakers.

Урок 10 Observability как часть SRE - практики и проблемы эксплуатации

Теория:

• Введение в SRE и роль Observability:

• Error Budgets.

• Применение Top-Down анализа.

• Баланс между объемом данных и их ценностью:

• Что хранить, а что игнорировать.

• Построение системы observability для N-сервисов:

• Обработка синхронных/асинхронных взаимодействий.

• Кейсы деградации цепочек вызовов.

Практика:

• Разработка observability для системы из нескольких Go-сервисов.

• Анализ деградации цепочек вызовов через трейсы и метрики.

Урок 11 Стратегии для больших систем

Теория:

• Построение наблюдаемости для системы из множества сервисов.

• Подходы к массовой интеграции метрик в микросервисы:

• Конфигурация экспортеров и SDK.

• Шаблонизация дашбордов.

• Автоматизация алертинга: CI/CD для observability.

• Автоматизация деплоя observability стека

• Как не перегрузить систему мониторинга сложными алертами

• Синхронные и асинхронные взаимодействия: мониторинг и алертинг.

• Дизайн метрик и root cause analysis.

• Борьба с избыточным количеством метрик.

• Предсказания

• AI для алертинга

• Использование service mesh istio для улучшения наблюдаемости системы, kiali для визуализации, автоматизация сбора метрик на уровне инфраструктуры, header propagation

Практика:

• Создание комплексного дашборда для системы из N сервисов.

• Написание эффективных запросов

• Настройка cross-service трейсов.

• Проведение RCA с использованием метрик, логов и трейсов.

• Автоматизация конфигураций метрик и алертов с помощью Helm и Terraform.

Преподает Виталий Лихачев. SRE в TravelTech, который ты точно знаешь

Тариф Стандарт

11 практических занятий

Домашние задания

Q&A-сессии с ответами на вопросы

Начало: 13 мая 2025г.

Продажник:



Скачать:

 
Назад
Сверху