В этом обзоре представлены лучшие онлайн курсы обучения SRE, их сравнение, актуальный рейтинг. Специалисты SRE (Site Reliability Engineering) приносят большую пользу бизнесу, поэтому они сейчас весьма востребованы, а зарплатные перспективы очень хорошие. На курсах вы получите необходимые знания и навыки по SRE и сможете применить их на практике.
Курс «SRE практики и инструменты» от OTUS
Цена: 79 800 руб, возможна рассрочка
Формат обучения: онлайн занятия с преподавателем, видеозаписи лекций
Длительность: 5 месяцев, 4 ак. часа в неделю
Домашние задания: есть
Проверка заданий преподавателем: есть
Связь с преподавателем: есть
Документ об окончании: сертификат
Кому подойдет курс: системные инженеры, администраторы и операторы, разработчики, инфраструктурные и платформенные инженеры, технические директоры, руководители и тимлиды
Доступ к материалам: навсегда
Проекты в портфолио: 1 проект
Помощь с трудоустройством: есть (для лучших студентов)
Какие навыки вы получите:
- Узнаете, что такое SRE и какие существуют на сегодня SRE-практики
- Научитесь внедрять SRE практики в своей организации
- Разберетесь, как управлять надежностью, доступностью и эффективностью сервисов
- Сможете управлять изменениями
- Научитесь осуществлять мониторинг и улучшать наблюдаемость системы
- Поймете, как реагировать на инциденты и проблемы с производительностью
Программа курса:
- Введение в SRE
- GIT 101: совместная работа, CI, вендоринг
- Основные принципы SRE
- Практика управление конфигурацией. Ansible
- Практика управление конфигурацией. Terraform
- Linux 101: cgroups/namespaces/network/containers
- Экосистема Kubernetes
- Практика управление конфигурацией. Helm
- QA-сессия
- SLI, SLA, SLO и управление рисками
- Автоматизация: Low-Code/No-Code
- Автоматизация: CLI, Data transformation
- Aвтоматизация: Runbook Automation (Jenkins/AWX/Rundeck)
- Задачи мониторинга и алертинга
- Observability
- QA-сессия
- Непрерывная поставка и управление изменениями
- Управление релизами
- Тестирование надежности систем
- Управление нагрузкой предотвращения перегрузок и сбоев
- Практика on-call и жизненный цикл SRE команды
- Практика постмортемов
- Практика диагностики и решения проблем
- Customer Reliability Engineering
- Как подсветить навыки в резюме. Шаблон резюме
- Этапы собеседования: чего ждать? Live-собеседование с поведенческими вопросами
- QA-сессия
- Dashboard as a Code
- Итоговый проект
Особенности курса:
- Преподаватели курса – DevOps-инженеры с большим опытом работы с облачными инфраструктурами, распределенными системами
- Занятия проходят в группах
- Есть чат в Slack для общения с преподавателем и другими студентами
- Самые успешные студенты получат приглашение пройти собеседование в компаниях-партнерах
Курс «SRE: база» от Слёрм
Цена: 75 000 руб или рассрочка на 4 месяца — 17 500 руб / мес
Формат обучения: видеозаписи лекций, онлайн занятия с преподавателем
Длительность: 20 дней, интенсив
Домашние задания: есть
Проверка заданий преподавателем: задания проверяются автоматически, на стендах
Связь с преподавателем: есть
Документ об окончании: нет
Кому подойдет курс: разработчики, DevOps-инженеры
Доступ к материалам: 2 года
Проекты в портфолио: нет
Помощь с трудоустройством: нет
Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.
Какие навыки вы получите:
- Научитесь внедрять правки прямо в прод
- Узнаете, как решать конкретные проблемы, связанные с надежностью сервиса
- Поймете, какие метрики собирать и как это делать правильно
- Научитесь быстро поднимать продакшн силами команды
- Узнаете, как снизить ущерб от отказов в будущем
Программа онлайн встреч с преподавателем:
Тема 1: Мониторинг
- Зачем нужен мониторинг
- Перцентили
- Alerting
- Observability
Тема 2: Теория SRE
- SLO, SLI, SLA
- Durability
- Error budget
Тема 3: Управление инцидентами
- Resiliencе Engineering
- Как выстраивается пожарная бригада
- Насколько ваша команда эффективна в инциденте
- 7 правил для лидера инцидента
- 5 правил для пожарного
- HiPPO — highest paid person’s opinion. Communications Leader
Тема 4: Инструменты варрума и алерт менеджмента
- Вest practiсe других компаний в организации инцидент-менеджмента
Тема 5: Health Checking
- Health Check в Kubernetes
- Жив ли наш сервис?
- Exec probes
- InitialDelaySeconds
- Secondary Health Port
- Sidecar Health Server
- Headless Probe
- Hardware Probe
Тема 6: Способы деплоймента
Тема 7: SRE онбординг проекта
Особенности курса:
- Преподаватели курса – инженеры с большим опытом работы с облачными инфраструктурами, распределенными системами
- Практика проходит на готовых стендах
Курс «SRE: Observability» от Слёрм
https://slurm.io/sre-observability
Цена: 45 000 руб
Формат обучения: онлайн занятия с преподавателем, видеозаписи лекций
Длительность: 12 дней, интенсив
Домашние задания: есть
Проверка заданий преподавателем: задания проверяются автоматически, на стендах
Связь с преподавателем: есть
Документ об окончании: нет
Кому подойдет курс: SRE-инженеры
Доступ к материалам: 2 года
Проекты в портфолио: нет
Помощь с трудоустройством: нет
Инструменты, с которыми вы будете работать: Python (нужно будет писать код), Grafana, Kubernetes, Graphite.
На данных мастер-классоах вы построите систему мониторинга приложений, состоящих из множества микросервисов.
Какие навыки вы получите:
- Научитесь оценивать требования для оценки качества технической работы системы
- Поймете, как выбирать метрики, чтобы с их помощью успешно определять надежность системы
- Узнаете, как «читать» по метрикам, что с системой что-то не так
- Разберетесь, что такое error budget и как его рассчитывать
- Научитесь применять классические воронки
- Освоите измерение надежности точек входа
Особенности курса:
- Преподаватели курса – опытные инженеры
- Есть чат для общения с преподавателем и другими студентами
- Школа предоставляет готовые стенды для практики
Курс «SRE — The Big Picture» от Udemy
https://www.udemy.com/course/sre-the-big-picture/
Цена: 2 290 руб
Формат обучения: видеозаписи лекций
Длительность: 2 часа видео
Домашние задания: есть
Проверка заданий преподавателем: есть
Связь с преподавателем: есть
Документ об окончании: сертификат
Кому подойдет курс: новички
Доступ к материалам: навсегда
Проекты в портфолио: нет
Помощь с трудоустройством: нет
Курс на английском языке.
Программа курса:
- Что означает SRE?
- Происхождение SRE
- Все дело в ожиданиях клиента
- Как мы измеряем надежность
- Надежность: хорошая, плохая, уродливая
- Высочайший уровень надежности
- Минимальный уровень надежности
- Желаемый уровень надежности
- Равновесие надежности и инноваций
- 7 принципов SRE
- Принятие риска
- Цели уровня обслуживания
- Устранение тяжелого труда
- Мониторинг
- Автоматизация
- Release Engineering
- Простота
- 7 практик SRE
- Реакция на инцидент
- Анализ первопричин
- Тестирование и выпуск
- Планирование мощности
- Разработка
- Пользовательский опыт
- Кто такой инженер по надежности сайта?
- Чем занимается инженер по надежности сайта?
- Кто может быть SRE?
- Форматы SRE команд
- Проблемы
- Подведение итогов
- Руководители и руководители высшего звена
- Инженеры-программисты и системные администраторы