Re: мониторинг нескольких организаций - как можно проще, чем?

Michael Shigorin Fri, 06 Jan 2012 07:29:50 -0800

        Владимир,
меня при ответе лучше поставить в копию -- debian-russian@
получаю, но читаю далеко не в первую очередь.

On Fri, Jan 06, 2012 at 09:50:14AM +0400, Vladimir Skubriev wrote:
> Что лучше всего использовать для мониторинга подконтрольных
> организаций.  Занимаюсь ИТ-аутсорсингом, пока 3 организации,
> в будущем планирую расширение.

Почти однозначно не стоит изобретать велосипед, т.к. сил
задокументировать и привести в передаваемое состояние при
росте нагрузки и расширении техперсонала (особенно на шагах
от одного до первых нескольких человек и от 5--7 до 10+) не
будет -- либо они будут взяты от внимания к делу и за счёт
повышения риска запятнать заработанное имя при проблемах.

К тому же самописные системы, будучи более подходящими к той
задаче, которая воспринимается сейчас -- обычно менее готовы
к расширению ареала задач, что не так больно на уровне "чуток
дописать", как на уровне "не укладывается, надо переписывать
или отказаться".

> Если описать вкратце, то хотел бы получить систему мониторинга вида:
> 1. Состояние служб записывается, всегда можно обратится к архиву.
> 2. В случае проблем мне на телефон приходит СМС-уведомление.

Здесь один момент: SMS -- негарантированный транспорт,
по-хорошему надо уметь заказывать подтверждение доставки
и при его отсутствии через заметный таймаут писать ещё.
Может пригодиться gammu-smsd, помнится.  Хороший запасной
вариант -- звонить голосом, но это нужен asterisk уже
и GSM-шлюз, что может быть отдельной полезной строкой,
но совсем другая сказка...

Второй момент: надо уметь либо ratelimit с приоритетами,
либо root cause analysis (что сложно) -- иначе может в самый
неподходящий момент завалить сигналами обо всём подряд и тем
дезориентировать. (см. тж. далее по тексту насчёт частоты)

> 3. Простую и легко настраиваемую систему.

Это достаточно сложно, если ей ещё и что-то уметь надо.

> 4. Главное, чтобы помимо настройки мониторинга оставалось время на само 
> обслуживание того, что нужно мониторить, и пользователей с их проблемами.

Помимо первичной настройки (и подстройки на вводе в эксплуатацию)
стоит учитывать вероятность коррекции требований и пожеланий в
будущем -- это ведь тоже время.

> Навскидку приходят Zabbix, Nagios, Icinga.

Для такой задачи они, как понимаю, годятся.  У нас применяются
или monit+collectd, реализующие активный локальный и пассивный
распределённый мониторинг, или Clustrx Watch в составе системы
управления кластером.

> Из того, что в принципе щупал - ZAbbix и Nagios - опять же поверхностно. 
> Все они позволяют сделать систему мониторинга так, как хотелось бы. Но 
> увы, на их изучение требуется достаточно много времени. Чует моё сердце,
> что придется целиком и полностью погрузится в изучение.

Конечно, потребуется.  При этом изучать лучше не на переезде,
а либо на новом внедрении при понимающем ситуацию заказчике,
либо (ещё лучше) у себя на стенде +/- после дозревания стенда до
похожего на бету состояния делать дублирующую систему на наиболее
подходящем клиенте с тем, чтобы потом плавно съехать на неё в
качестве основной.

Может иметь смысл посмотреть доклад Коли Маржана:
http://ftp.linux.kiev.ua/pub/conference/2011/reports/marzhan-monitoring.pdf
http://ftp.linux.kiev.ua/pub/conference/2011/video/s1-3-monitoring.mp4

Имейте в виду, что обобщение своих скриптов будет также занимать
время, причём непредсказуемое в случае непредвиденных заранее задач.

> Вообще хотел бы услышать мнение того, кто с такой задачей сталкивался, 
> желательно сталкивался на фронте "Аутсорсинга". А надо ли вообще?

Мы порой строили клиентам где-то с 2004.

> Вот моё мнение : "Мне это нужно, без мониторинга - плохо, но это не есть 
> моя основная задача и времени на внедрение мониторинга немного".

Значит, следует провести первичный отбор, если останется пара
вариантов -- провести их обкатку на стенде или пилотном внедрении
"сбоку", и по результатам формировать для себя типовое внедрение,
обязательно документируя в такой вид, чтоб можно было воспроизвести
без привлечения тайных знаний в исходной голове -- тогда получится
и в три часа ночи что-то предпринять, и через год-два, и передать
малой кровью своему техперсоналу (hint: когда таким занимается
_один_ человек, а не хотя бы два -- это уже важная точка отказа).

> Потому как основных задач с тремя организациями на обслуживании - 
> вполне хватает на рабочий день.
> 
> Может быть, кто-то решает это при помощи самописных скриптов,
> или еще как?

Самописные скрипты стоит вписывать как "кончики пальцев".
Проекты-то не на пустом месте родились -- это те же самописные
скрипты, просто прошедшие более длинный путь обобщения и проверки
действительностью.  Нередко уже выкинутые и переписанные начисто.

> У меня в данный момент есть скрипты, которые каждый день отчитываются о 
> своей работе по электронной почте. Но увы, это не удобно каждый день 
> проверять почту и видеть в ней письма с отчетами о "ВЫПОЛНЕННОМ" 
> Задании. Т.к. по сути меня больше интересуют "НЕ ВЫПОЛНЕННЫЕ" Задания.

Есть ещё одно состояние -- "должно было быть выполнено, отчёта нет".

> В то же время я хотел бы быть уверенным в том, что мои задачи
> резервного копирования, проверки состояния дисковых массивов и
> т.д. проходят в рабочем режиме и готовы доложить о проблеме
> немедленно.

Тогда может иметь смысл посмотреть на bacula -- там это учтено:
http://www.mail-archive.com/bacula-users@lists.sourceforge.net/msg50385.html

Правда, это минимум с неделю вечерами посидеть на освоение
базовых концепций и ещё неделю -- на создание и угробливание
первой инсталяции (там есть нюанс -- media в pool'ах следует
организовывать относительно небольшими кусками с ограничением
по размеру/времени с тем, чтобы можно было их автоматом
recycle'ить, т.к. оно только append'ит и не overwrite'ит).

И кстати, тут есть ещё нюанс: если слать _все_ результаты
(а не архивировать все, слать неудачные и сигналить о неожиданном
отсутствии удачных) -- упирается в читающего не только по
количеству площадок, а и по частоте проверок.

> И еще вопрос: сколько в среднем потребуется времени на изучение
> и внедрение, скажем, если серверов 15 windows/linux-серверов и
> где-то около 40 рабочих станций win.  Надеюсь, Вы меня поняли.

Сильно зависит от нагрузки, характера остатков времени (по пять
минут за раз или можно выкроить кусками хоть по два-три часа),
имеющихся навыков и т.д. и т.п.  Пристреливайтесь на стенде
(хотя бы виртуальном) и пилотном проекте, по ним и получите
свою личную оценку.  Совсем на глаз -- около месяца на освоение
и эксперименты, с месяц пробной эксплуатации и только затем уже
масштабировать наработанное решение к другим клиентам.

On Fri, Jan 06, 2012 at 11:58:15AM +0400, Vladimir Skubriev wrote:
> Немного оформил мои требования:
> 1.    Текущая доступность серверов и служб на серверах.
> 2.    Архив доступности серверов и служб на серверах.

BTW если он не распределённый, то авария диска или иные события
могут привести к недоступности архива.  Если логи, почта, БД
существует _вне_ инфраструктуры объекта мониторинга, то хотя бы
есть шансы на то, что получится восстановить картину происшедшего.

> 3.    Контроль выполнения резервного копирования и свободного
>       места для резервного копирования.
> 4.    Контроль состояния программных/аппаратных массивов.
> 5.    Контроль состояния дисков по показателям SMART.

Это может быть решаемо существующими средствами общего назначения.
(BTW для разных рейдов и соответствующих вендорских утилит есть
надстройка einarc, может пригодиться на "последней миле")

> 6.    Уведомления по СМС в случае серьезных проблем.
> 7.    Звуковые предупреждения в случае не возможности
>       уведомления по СМС или электронной почте (отсутствует
>       связь по интернет, нет денег на счете, другая ошибка).

Это по крайней мере отчасти явно свои скрипты,
дёргающиеся из мониторилки на месте.

> 8.    Проверка успешности задания (скрипта) на удаленном сервере.
> Как проверять успешность выполненного задания на удаленном
> сервере с помощью различных систем мониторинга будет ЛЕГЧЕ?

А это может быть non-issue, см. обсуждение и ссылку выше.

> В свою очередь тот скрипт которого проверяют, если его не
> проверили включает свою сирену, например уведомление по email
> и звуковой сигнал через динамик PC.

Существенно ли, если он отработал, а связи с Вашей частью
системы мониторинга не было?  Если N клиентов будут дёргаться
по причине полуминутного завала линка у Вас, может выйти не очень
красиво.  Т.е. может быть и существенно, но для подобных задач
обычно (e.g. в тех же monit и collectd) применяется сбрасываемый
накопитель ошибок -- если за, скажем, десяток циклов произошло
менее восьми ошибок, то это ещё не беда, а вот если больше --
пора сигналить доступными средствами.

PS: набрался нахальства поправить процитированный текст
чуточку насчёт грамматики-орфографии. :)  С Рождеством!

-- 
 ---- WBR, Michael Shigorin <m...@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/

-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: http://lists.debian.org/20120106151147.gb20...@osdn.org.ua

Re: мониторинг нескольких организаций - как можно проще, чем?

Ответить