RSS

Комментарии

А как SRE узнает, что что-то случилось?
Возьмёт и починит сам. SRE-инженер — это «дежурный программист», который не только первым узнаёт о проблеме, но и сразу же приступает к её решению. В итоге он экономит несколько часов для своей компании и пользователей. А программисты могут спокойно отдыхать, даже если у сервиса проблемы.

В компаниях с командой из 10–15 человек можно обойтись без SRE: обычно разработчики дежурят по очереди. А вот большому высоконагруженному сервису, например банку, без такого специалиста не обойтись: в случае проблем счёт идёт на минуты.
А что в такой ситуации сделает SRE-инженер?
Была — но её обеспечивали иначе. Представим большой и популярный онлайн-кинотеатр. Это сложный сервис, который должен показывать сериалы и фильмы 24/7 с минимальной задержкой.

Предположим, что в пятницу у сервиса два важных события: вечером выходит финальный эпизод сериала «Игры у стола» и тем же вечером разработчики апдейтят бэк. Тесты проходят, всё работает, «Игры» летят — разработчики уходят в бар отмечать долгожданный релиз. А в субботу утром десятки тысяч людей не могут нормально посмотреть сериал: вместо 20 мс сайт работает с задержкой 100500 мс.

При традиционном подходе к надёжности первыми о ситуации узнают сотрудники поддержки, ведь расстроенные зрители заполнят все чаты. Специалист поддержки не может восстановить работу сервиса — он эскалирует проблему, передав её в технический хелп. Там увидят, что случилась большая беда, и начнут вызванивать разработчиков. Не факт, что все они на связи в субботу, ведь у всех нас есть свои дела по выходным. В итоге через несколько часов соберётся консилиум программистов и будет решать, что делать: откатывать апдейт или попытаться пофиксить текущий билд. На восстановление нормальной работоспособности уйдут часы или даже дни — а такой простой очень дорого обходится бизнесу.
А что, до SRE безотказности сервисов не было?
Есть две хорошие практики, которые может взять на вооружение любая команда.

Бюджет ошибки. SRE-команды считают так называемый бюджет ошибки — допустимый период, в течение которого сервис может работать ниже целевых уровней. С помощью бюджета можно измерять серьёзность инцидентов. Если, например, инцидент истратил 30% бюджета, его можно считать серьёзным. Это помогает SRE-инженерам не отвлекаться на минорные проблемы, которые регулярно возникают даже в самых оттестированных проектах.

Постмортемы. Это грустное слово означает отчёт или небольшую статью, которую пишут по результатам решения проблемы. С помощью постмортемов SRE-инженер делится важным знанием с командами разработки, помогая избежать ошибок в будущих проектах.
Хорошо. А чему разработчики и команды могут научиться у парадигмы SRE, даже если таких специалистов в штате нет?
Вроде того, он настоящий Бэтмен. Чтобы задержать преступника быстрее полиции, важно действовать не хуже настоящего полицейского. SRE должен разбираться в инфраструктуре, конфигурации серверов, быстро читать логи. Он умеет писать код не хуже программистов — ведь часто для исправления бага нужно быстро переписать что-то руками.

Чтобы работать очень быстро, в SRE используют парадигму «инфраструктура как код». Инженеры могут управлять инфраструктурой и настраивать её через процедуры в коде — так они работают со всеми компонентами в одной среде и не отвлекаются на ручное «накликивание» настроек серверов.

Чтобы SRE-инженер хорошо знал свой продукт, он часто участвует в его разработке. Как правило, это очень опытный, сильный программист, вожак стаи с самыми мощными лапищами. Иначе команда просто не будет ему доверять.
Получается, SRE-специалист — это такой сисадмин-девопс-программист
У команды по доступности работает мощный мониторинг, отслеживаются десятки показателей жизнедеятельности сервиса. Если метрики начинают сыпаться, срабатывают алерты.

Но обычного письма или пуша для SRE-инженера мало. Алерт в его случае работает многоступенчато. Например, сперва разработчик получает уведомление через телеграм-бота. После этого он должен быстро отметить в мониторинговой админке, что увидел проблему. Если этого не сделать, мониторинг начнёт звонить SRE-специалисту по телефону, вызывая на бой с багами. Многоступенчатость важна, ведь сервис может упасть и ночью, а во сне можно случайно пропустить вызов или машинально отменить его, как будильник.

В небольших и средних компаниях обычно дежурит один SRE-инженер. Если он пропустит алерт, то решение ситуации придётся откладывать. В больших компаниях инженеров сразу несколько — они могут подстраховать друг друга.
А как SRE узнает, что что-то случилось?
Возьмёт и починит сам. SRE-инженер — это «дежурный программист», который не только первым узнаёт о проблеме, но и сразу же приступает к её решению. В итоге он экономит несколько часов для своей компании и пользователей. А программисты могут спокойно отдыхать, даже если у сервиса проблемы.

В компаниях с командой из 10–15 человек можно обойтись без SRE: обычно разработчики дежурят по очереди. А вот большому высоконагруженному сервису, например банку, без такого специалиста не обойтись: в случае проблем счёт идёт на минуты.
А что в такой ситуации сделает SRE-инженер?
Была — но её обеспечивали иначе. Представим большой и популярный онлайн-кинотеатр. Это сложный сервис, который должен показывать сериалы и фильмы 24/7 с минимальной задержкой.

Предположим, что в пятницу у сервиса два важных события: вечером выходит финальный эпизод сериала «Игры у стола» и тем же вечером разработчики апдейтят бэк. Тесты проходят, всё работает, «Игры» летят — разработчики уходят в бар отмечать долгожданный релиз. А в субботу утром десятки тысяч людей не могут нормально посмотреть сериал: вместо 20 мс сайт работает с задержкой 100500 мс.

При традиционном подходе к надёжности первыми о ситуации узнают сотрудники поддержки, ведь расстроенные зрители заполнят все чаты. Специалист поддержки не может восстановить работу сервиса — он эскалирует проблему, передав её в технический хелп. Там увидят, что случилась большая беда, и начнут вызванивать разработчиков. Не факт, что все они на связи в субботу, ведь у всех нас есть свои дела по выходным. В итоге через несколько часов соберётся консилиум программистов и будет решать, что делать: откатывать апдейт или попытаться пофиксить текущий билд. На восстановление нормальной работоспособности уйдут часы или даже дни — а такой простой очень дорого обходится бизнесу.
А что, до SRE безотказности сервисов не было?
Еще раз 3 кита performance-рекламы

1) математика: доход с клиента (за период) > цена на привлечение на него потраченной (условно мобильный оператор накрутил вам баннеров — и теперь вы всю жизнь ему платите по 20$ в месяц, total customer value 20$ * 12 * 5 (лет например) = 1200$ (а привлек например за 10-20$). Profit!

Конкретно в моем текущем проекте я например знаю что средний клиент заплатит 140000р (при марже 20% — то есть примерно 28000р останется) значит привлечение клиента по цене 2000-3000р нас устроит точно). Все считается на текущих реальных клиентах.

2) Не жмотить денег на рекламу (нужно себя спрашивать сколько вложить в рекламу а не сколько потратить). При условии что вы знаете математику по пункту 1. Знаю много людей кто толчется на месте (по схеме ой мы работаем по сарафану, все эти ваши рекламы не работает — я в таком случае говорю что Coca Cola на рекламу тратит 1.5 млрд долларов а Вася Пупкин из Киржача работает по сарафану :)))

3) По поводу остального это уже нюансы чисто привлечения. В результате в конце месяца должен быть отчет примерно такое:

а) канал №1 Яндекс пришло столько то — оплатили столько то, цена заявки такая-то

б) канал №2 Гугл

в) канал №3 Авито ))

г) канал №3 Вася раздающий флаеры (ух нелюблю я эту макулатуру)

д) канал №4 Алена рекомендующая ваш сервис) — цена заявки такая-то

ё) канал №5 Телеграм или партнерка

И так далее. Все это опыт полученный в результате открутки, не одного млн рублей.
Еще раз 3 кита performance-рекламы

1) математика: доход с клиента (за период) > цена на привлечение на него потраченной (условно мобильный оператор накрутил вам баннеров — и теперь вы всю жизнь ему платите по 20$ в месяц, total customer value 20$ * 12 * 5 (лет например) = 1200$ (а привлек например за 10-20$). Profit!

Конкретно в моем текущем проекте я например знаю что средний клиент заплатит 140000р (при марже 20% — то есть примерно 28000р останется) значит привлечение клиента по цене 2000-3000р нас устроит точно). Все считается на текущих реальных клиентах.

2) Не жмотить денег на рекламу (нужно себя спрашивать сколько вложить в рекламу а не сколько потратить). При условии что вы знаете математику по пункту 1. Знаю много людей кто толчется на месте (по схеме ой мы работаем по сарафану, все эти ваши рекламы не работает — я в таком случае говорю что Coca Cola на рекламу тратит 1.5 млрд долларов а Вася Пупкин из Киржача работает по сарафану :)))

3) По поводу остального это уже нюансы чисто привлечения. В результате в конце месяца должен быть отчет примерно такое:

а) канал №1 Яндекс пришло столько то — оплатили столько то, цена заявки такая-то

б) канал №2 Гугл

в) канал №3 Авито ))

г) канал №3 Вася раздающий флаеры (ух нелюблю я эту макулатуру)

д) канал №4 Алена рекомендующая ваш сервис) — цена заявки такая-то

ё) канал №5 Телеграм или партнерка

И так далее. Все это опыт полученный в результате открутки, не одного млн рублей.
Про коллтрекинг слышал, причем во времена когда были популярны мультилендинги. Слабо представляю его в сочетании с дорожными баннерами. Но саму идею (через листовки и рекламные каналы) уловил.
А вот про таргетинг проходящих мимо людей впервые слышу, это что-то вроде «обыкновенной промоакции»?..
Есть где-то информация в открытом доступе о всех этих офлайн штуках?

В любом случае большое спасибо за консультацию, уже натолкнули на мысли куда копать, и может даже где применять.
Про коллтрекинг слышал, причем во времена когда были популярны мультилендинги. Слабо представляю его в сочетании с дорожными баннерами. Но саму идею (через листовки и рекламные каналы) уловил.
А вот про таргетинг проходящих мимо людей впервые слышу, это что-то вроде «обыкновенной промоакции»?..
Есть где-то информация в открытом доступе о всех этих офлайн штуках?

В любом случае большое спасибо за консультацию, уже натолкнули на мысли куда копать, и может даже где применять.
Да оффлайн рекламу тоже можно мерить:

1) самый простой способ статический коллтрекинг (регистрируем номер) и его размещаем на данном баннере(группе баннеров)/листовке/рекламном канале.

Все что продали с этого канала записывается на канал.

2) для ритейла есть технологии подсчета покупателей (сколько в тц условно зашло людей) и еще много интересного, вплоть до таргетинга мимо проходящих людей).