Администрирование [Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

Алан-э-Дейл
Алан-э-Дейл

Алан-э-Дейл

Редактор
badge 3 года с нами! badge Награда за 5000 очков репутации badge За шикарный аватар! badge 2FA подключил - Награду получил!
Регистрация
25/03/2020
Сообщения
11.369
Репутация
6.068
Автор: Слёрм
Название: [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)


На курсе вы будете:
Строить

Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.

Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.

Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.

Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.

Требования к участникам:
- Свободное владение Linux;
- Любой язык программирования: уровень Junior;
- GitLab: навыки автоматизации;
- Prometheus: навыки мониторинга;
- Kubernetes: навыки работы в кластере.


Тема №1: Основные принципы и методы SRE

  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

  • Работа под давлением
  • Failure-injection
  • Chaos Monkey

Тема №7: Практика incident response

  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • Knowledge sharing
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

  • Балансировка нагрузки
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

  • Разбор полетов
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

  • Журналирование
  • Отладка
  • Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

  • Нагрузочное тестирование
  • Тестирование конфигураций
  • Тестирование производительности
  • Canary release

Тема №12: Самостоятельная работа и ревью

  • Реальные кейсы
  • Проверка спикерами

Подробнее:
Авторизуйтесь, чтобы посмотреть скрытый контент.

Скачать:
Авторизуйтесь, чтобы посмотреть скрытый контент.
 
Последнее редактирование модератором:
Ну, вот в репозитории provider_backend не хватает папки .helm (((
 

Создайте учетную запись или войдите, чтобы комментировать или скачивать материалы!

У вас должна быть учетная запись, чтобы оставлять комментарии

Зарегистрироваться

Создайте учетную запись. Это просто!

Авторизоваться

У вас уже есть аккаунт? Войдите здесь.

Последние темы автора

Алан-э-Дейл
Ответы
5
Просмотры
7K
meow_meow
Алан-э-Дейл
Ответы
1
Просмотры
11K
VIT1103
VIT1103
Алан-э-Дейл
Ответы
2
Просмотры
5K
Captain Sparrow
Captain Sparrow
Алан-э-Дейл
Ответы
4
Просмотры
8K
Тотуся
Тотуся

Похожие темы

Малыш Джон
Ответы
2
Просмотры
7K
Bslpzk
Bslpzk
Малыш Джон
Ответы
0
Просмотры
5K
Малыш Джон
Малыш Джон
Алан-э-Дейл
Ответы
0
Просмотры
5K
Алан-э-Дейл
Алан-э-Дейл
Брат Тук
Ответы
0
Просмотры
2K
Брат Тук
Брат Тук
Роджерc
Ответы
0
Просмотры
1K
Роджерc
Роджерc
Алан-э-Дейл
Ответы
1
Просмотры
2K
gedonist
gedonist
Роджерc
Ответы
0
Просмотры
933
Роджерc
Роджерc
Малыш Джон
Ответы
1
Просмотры
2K
inventor14
Роджерc
Ответы
0
Просмотры
3K
Роджерc
Роджерc
Сверху Снизу