Используемые метрики Мониторинга Платформы IVA MCU

Графики, отображаемые кривые, вкладки и их содержание могут отличаться в зависимости от выбранного сервера, модулей серверной части и запущенных служб

Вкладка Система

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

ЦПУ %

График показывает загрузку процессора в реальном времени

{mode="idle"}

Кривая отображает процент времени, в течение которого ЦПУ находится в состоянии ожидания, не выполняя никаких задач

10−100 %

Менее 10 % на протяжении 2 минут, при этом возможно система перегружена, и необходимо определить источник возникновения данной проблемы

{mode="iowait"}

Кривая отображает процент времени, в течение которого ЦПУ ожидает завершения операций ввода-вывода

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

{mode="irq"}

Кривая отображает процент времени, в течение которого ЦПУ занимается обработкой прерываний от оборудования

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

{mode="nice"}

Кривая отображает процент времени, в течение которого ЦПУ занимается выполнением пользовательских задач с увеличенным приоритетом (nice)

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

{mode="softirq"}

Кривая отображает процент времени, в течение которого ЦПУ обрабатывает программные прерывания (softirq)

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

{mode="steal"}

Кривая отображает процент времени, в течение которого виртуальная машина не получает ресурсы процессора для своего выполнения

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

{mode="system"}

Кривая отображает процент времени, в течение которого ЦПУ занимается выполнением системных задач

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

{mode="user"}

Кривая отображает процент времени, в течение которого ЦПУ занимается выполнением пользовательских задач

0−80 %

Превышения значений выше 80 % может привести к нестабильной работе системы

Средняя загрузка

График показывает среднюю загрузку процессора в реальном времени

node_load1

Кривая отображает среднюю загрузку системы за 1 минуту

Значение кривых находится в диапазоне от 0 до n, где n — общее количество ядер процессора

Превышение значения n более чем на 70 % означает, что на процессор идет повышенная нагрузка, которая может привести к медленному отклику процесса, что повлияет на нормальную работу системы

node_load5

Кривая отображает среднюю загрузку системы за 5 минут

node_load15

Кривая отображает среднюю загрузку за 15 минут

Память, Гб

График показывает информацию об использованной и неиспользованной памяти в реальном времени

Available

Кривая отображает объем памяти, который доступен для выделения новому или существующему процессу

Значения кривых не должны превышать объем доступной памяти

Если значения на кривых близки к максимальным (с учетом файла подкачки), то система может не иметь достаточного места для хранения временных файлов, кэша и других данных, что может привести к их потере

Buffered

Кривая отображает объем памяти, зарезервированный системой для выделения ее процессам, когда им это потребуется

Cached

Кривая отображает объем данных, которые недавно были использованы системой / процессами и временно сохранены для быстрого доступа в случае их повторного использования

Free

Кривая отображает объем свободной памяти, которая в данный момент не используется

Slab

Кривая отображает объем памяти, за счет которого кэш (Cached) может увеличиваться или уменьшаться

Временные файловые системы, Гб

График показывает информацию об использованной и неиспользованной памяти для хранения временных файлов в реальном времени

Free{mountpoint="/run"}

Кривая отображает общий объем свободной памяти

Значения кривых не должны превышать объем доступной памяти

Если значения кривых близки к максимальным (с учетом файла подкачки), то система может не иметь достаточного места для хранения временных файлов, кэша и других данных, что может привести к их потере

Free{mountpoint="/run/lock}

Кривая отображает свободную память для файлов блокировки, используемых для предотвращения одновременного доступа к ресурсам между несколькими процессами

Free{mountpoint="/run/user/0"}

Кривая отображает свободную память для временных файлов пользователя

Reserved{mountpoint="/run"}

Кривая отображает общий объем зарезервированной памяти

Reserved{mountpoint="/run/lock}

Кривая отображает зарезервированную память для файлов блокировки, используемых для предотвращения одновременного доступа к ресурсам между несколькими процессами

Reserved{mountpoint="/run/user/0"}

Кривая отображает зарезервированную память для временных файлов пользователя

Used{mountpoint="/run"}

Кривая отображает общий объем используемой памяти

Used{mountpoint="/run/lock}

Кривая отображает используемую память для файлов блокировки, используемых для предотвращения одновременного доступа к ресурсам между несколькими процессами

Used{mountpoint="/run/user/0"}

Кривая отображает используемую память для временных файлов пользователя

Переключения контекста/с

График показывает количество переключений в секунду между контекстом userspace и systemspace в реальном времени

Context switches

Кривая отображает количество переключений в секунду между контекстом userspace и systemspace

Показатель количества переключений в секунду используется для комплексной оценки работы системы. Данный показатель необходимо анализировать в сочетании с другими метриками (например, с показателем загрузки системы)

Резкий рост количества переключений может свидетельствовать о возможных проблемах в системе

Время работы, дни

График показывает количество времени беспрерывной работы системы в реальном времени

Uptime

Кривая отображает количество времени беспрерывной работы системы

График носит информационный характер и не предназначен для оценки работы системы

Вкладка Сеть

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Трафик, мбит/с

График показывает загрузку сетевых каналов в реальном времени

RX{device="ens"}

Кривая отображает загрузку сетевого канала приема через интерфейс ens

Рекомендуемое значение загрузки сетевых каналов между различными серверами не должно превышать:

  • головным сервером и сервером базы данных 1000 Мбит/с

  • головным сервером и медиасервером 1000 Мбит/с

  • медиасервером и файловым хранилищем 10000 Мбит/с

  • головным сервером и файловым хранилищем 10000 Мбит/с

  • головными серверами 1000 Мбит/с

  • серверами базы данных 1000 Мбит/с

Загрузка сетевых каналов между различными серверами не должна быть ниже:

  • головным сервером и сервером базы данных 200 Мбит/с

  • головным сервером и медиасервером 50 Мбит/с

  • медиасервером и файловым хранилищем 1000 Мбит/с

  • головным сервером и файловым хранилищем 1000 Мбит/с

  • головными серверами 200 Мбит/с

  • серверами базы данных 200 Мбит/с

RX{device="lo"}

Кривая отображает загрузку сетевого канала приема через интерфейс loopback

TX{device="ens"}

Кривая отображает загрузку сетевого канала передачи через сетевой интерфейс ens

TX{device="lo"}

Кривая отображает загрузку сетевого канала передачи через интерфейс loopback

Ошибки

График показывает количество возникших ошибок в реальном времени

RX errors{device="ens"}

Кривая отображает количество ошибок по сетевому каналу приема через интерфейс ens

Количество ошибок не должно быстро расти.
Данный показатель необходимо анализировать в сочетании с другими метриками (например, с анализом объема трафика сети и нагрузки на систему)

Количество ошибок между различными серверами не должно превышать:

  • головным сервером и сервером базы данных 1 %

  • головным сервером и медиасервером 1 %

  • медиасервером и файловым хранилищем 2 %

  • головным сервером и файловым хранилищем 2 %

  • головными серверами 1 %

  • серверами базы данных 1 %

RX errors{device="lo"}

Кривая отображает количество ошибок по сетевому каналу приема через интерфейс loopback

TX errors{device="ens"}

Кривая отображает количество ошибок по сетевому каналу передачи через сетевой интерфейс ens

TX errors{device="lo"}

Кривая отображает количество ошибок по сетевому каналу передачи через интерфейс loopback

Пакеты

График показывает количество пакетов на прием / передачу

RX packets/s{device="ens"}

Кривая отображает количество принятых пакетов по сетевому каналу через сетевой интерфейс ens

График используется для комплексного анализа исходящего / входящего трафика в системе

RX packets/s{device="lo"}

Кривая отображает количество принятых пакетов по сетевому каналу через loopback

TX packets/s{device="ens"}

Кривая отображает количество переданных пакетов по сетевому каналу через сетевой интерфейс ens

TX packets/s{device="lo"}

Кривая отображает количество переданных пакетов по сетевому каналу через loopback

Размеры UDP очередей, Кб

График показывает размер UDP-очередей в реальном времени

Queue size{ip="v4", queue="rx"}

Кривая отображает размер UDP-очередей по протоколу IPv4 при приеме

Размеры UDP-очередей не должны превышать среднюю нагрузку системы

Резкий рост размера UDP-очередей (означает, что система не успевает отправлять пакеты в сеть, и они копятся в сетевом интерфейсе, что приводит к задержке отправки данных в сеть)

Queue size{ip="v4", queue="tx"}

Кривая отображает размер UDP-очередей по протоколу IPv4 при передаче

Queue size{ip="v6", queue="rx"}

Кривая отображает размер UDP-очередей по протоколу IPv6 при приеме

Queue size{ip="v6", queue="tx"}

Кривая отображает размер UDP-очередей по протоколу IPv6 при передаче

Задержки сетевых вызовов, мс

График показывает время задержки сетевых вызовов между серверами системы в реальном времени

<IP-адреса добавленных серверов>

Кривые отображают время задержки вызова между серверами системы

Рекомендуемое значение времени задержки сетевых вызовов между:

  • головным сервером и сервером базы данных 1 мс

  • головным сервером и медиасервером 5 мс

  • медиасервером и файловым хранилищем 10 мс

  • головным сервером и файловым хранилищем 10 мс

  • головными серверами 5 мс

  • серверами базы данных 5 мс

Задержка между различными серверами не должна превышать:

  • между головным сервером и сервером базы данных 5 мс

  • между головным сервером и медиасервером 10 мс

  • между медиасервером и файловым хранилищем 20 мс

  • между головным сервером и файловым хранилищем 20 мс

  • между головными серверами 10 мс

  • между серверами базы данных 10 мс

Таймауты сетевых вызовов

График показывает количество таймаутов, возникающих при сетевых вызовах в реальном времени

<IP-адреса добавленных серверов>

Кривые отображают количество таймаутов, возникающих при сетевых вызовах

График используется для комплексной оценки работы системы. Увеличение значений на графике может свидетельствовать о длительных задержках сетевых вызовов

Расширенные метрики TCP

График показывает расширенные метрики TCP-соединений в реальном времени

ListenDrops

Кривая отображают количество входящих соединений (пакетов SYN), прерванных по какой-либо причине

Минимальное количество или отсутствие прерванных соединений

Увеличение значений с образованием пиков на графике может свидетельствовать о проблемах с сетью

Listenoverflows

Кривая отображает число случаев превышения верхнего предела очереди прослушивания

Минимальное количество или отсутствие переполнений буфера прослушивания

SyncookiesFailed

Кривая отображает количество полученных пакетов с неверной информацией SYN Cookie

Минимальное количество или отсутствие пакетов с неверной информацией SYN Cookie

SyncookiesRecv

Кривая отображает количество пакетов SYN / ACK, полученных через SYN Cookie

Минимальное количество или отсутствие полученных SYN Cookie

SyncookiesSent

Кривая отображает количество пакетов SYN / ACK, отправленных через SYN Cookie

Минимальное количество или отсутствие отправленных SYN Cookie

TCPSynRetrans

Кривая отображает количество повторных соединений (пакетов SYN)

Минимальные значения повторных передач SYN-сигналов

Вкладка Диск

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

/, Гб

График показывает информацию об использованной и неиспользованной памяти для хранения системных файлов в реальном времени

Free{device="/dev/vda1"}

Кривая отображает информацию о свободном объеме памяти виртуального диска

Свободный объем присутствует и может быть использован (необходимо, чтобы доступное свободное пространство было не менее 2 Гб)

Отсутствие свободного объема памяти диска

Reserved{device="/dev/vda1"}

Кривая отображает информацию о зарезервированном объеме памяти виртуального диска

Зарезервированный объем присутствует и может быть использован (необходимо, чтобы доступное свободное пространство было не менее 2 Гб)

Отсутствие зарезервированного объема памяти диска

Used{device="/dev/vda1"}

Кривая отображает информацию об используемом объеме памяти виртуального диска

Используемый объем не превышает доступного (необходимо, чтобы доступное свободное пространство было не менее 2 Гб)

Объем использованной памяти диска использует максимальный объем доступной памяти

/var/filestorage, Гб

График показывает информацию об использованной и неиспользованной памяти для хранения пользовательских файлов в реальном времени

Free{device="ip-адрес сервера:/backups/iva"}

Кривая отображает информацию о свободном объеме памяти диска

Свободный объем присутствует и может быть использован

Отсутствие свободного объема памяти диска

Reserved{device="ip-адрес сервера:/backups/iva"}

Кривая отображает информацию о зарезервированном объеме памяти диска

Зарезервированный объем присутствует и может быть использован

Отсутствие зарезервированного объема памяти диска

Used{device="ip-адрес сервера:/backups/iva"}

Кривая отображает информацию об используемом объеме памяти диска

Используемый объем не превышает доступного

Объем использованной памяти диска использует максимальный объем доступной памяти

Число операций слияния в секунду

График показывает число объединенных операций в секунду в реальном времени

Reads merged{device="sr0"}

Кривая отображает число объединенных операций чтения в секунду на логическом диске

График используется для комплексной оценки работы системы

Возрастание нагрузки обычно связано с записью данных на диск

Reads merged{device="vda"}

Кривая отображает число объединенных операций чтения в секунду на виртуальном диске

Writes merged{device="sr0"}

Кривая отображает число объединенных операций записи в секунду на логическом диске

Writes merged{device="vda"}

Кривая отображает число объединенных операций записи в секунду на виртуальном диске

Операции ввода/вывода, Мб/с

График показывает объем операций ввода / вывода в реальном времени

Reads{device="sr0"}

Кривая отображает объем операций чтения на логическом диске

График используется для комплексной оценки работы системы

Возрастание нагрузки обычно связано с записью данных на диск

Reads{device="vda"}

Кривая отображает объем операций чтения на виртуальном диске

Writes{device="sr0"}

Кривая отображает объем операций записи на логическом диске

Writes{device="vda"}

Кривая отображает объем операций записи на виртуальном диске

Число дисковых операций в секунду

График показывает число дисковых операций в секунду в реальном времени

Reads{device="sr0"}

Кривая отображает число дисковых операций записи на логическом диске

График используется для комплексной оценки работы системы

Возрастание нагрузки обычно связано с записью данных на диск

Reads{device="vda"}

Кривая отображает число дисковых операций записи на виртуальных диска

Writes{device="sr0"}

Кривая отображает число дисковых операций записи на локальных дисках

Writes{device="vda"}

Кривая отображает число дисковых операций записи на виртуальных дисках

Использование пропускной способности, %

График показывает использование пропускной способности диска в реальном времени

I/O utilization{device="sr0"}

Кривая отображает процент используемой пропускной способности на логическом диске

График используется для комплексной оценки работы системы

Возрастание нагрузки обычно связано с записью данных на диск

I/O utilization{device="vda"}

Кривая отображает процент используемой пропускной способности на виртуальном диске

Среднее время операции, мс

График показывает среднее время операции в реальном времени

Avg time/op read{device="vda"}

Кривая отображает среднее время операции чтения с виртуального диска

График используется для комплексной оценки работы системы

Возрастание нагрузки обычно связано с записью данных на диск

Avg time/op write{device="vda"}

Кривая отображает среднее время операции записи на виртуальный диск

Вкладка Конференции

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Участники

График показывает общее количество участников в мероприятиях в реальном времени

all sip users

all users

all web users

Кривые отображают общее количество участников мероприятия в зависимости от типа соединения / всех участников

Графики носят информационный характер и не предназначены для оценки стабильности работы системы

Конференции

График показывает количество активных конференций Домена в реальном времени

<список доменов>

Кривые отображают для каждого из добавленных доменов количество активных конференций

VVoIP участники

График показывает количество VVoIP-участников в реальном времени

<список доменов>

Кривые отображают для каждого из добавленных доменов количество активных VVoIP-участников конференций

Веб участники

График показывает количество web-участников в реальном времени

<список доменов>

Кривые отображают для каждого из добавленных доменов количество активных web-участников конференций

Лицензия

График показывает утилизацию лицензий в зависимости от параметра лицензии в реальном времени

<параметры лицензии>

Кривые отображают утилизацию лицензий в зависимости от параметра лицензии

Значения на графике меньше или равны количеству доступных лицензий в зависимости от параметра лицензии

Значения на графике равны количеству доступных лицензий в зависимости от параметра лицензий

Вкладка Пользователи

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Активные пользовательские сессии

График показывает количество активных пользовательских сессий в реальном времени

{client="all"}

Кривая отображает общее количество активных пользовательских сессий

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

{client="android"}

Кривая отображает количество активных пользовательских сессий Android-клиентов

{client="desktop"}

Кривая отображает количество активных пользовательских сессий desktop-клиентов

{client="h.323"}

Кривая отображает количество активных пользовательских сессий H.323-клиентов

{client="ios"}

Кривая отображает количество активных пользовательских сессий iOS-клиентов

{client="sip"}

Кривая отображает количество активных пользовательских сессий SIP-клиентов

{client="web"}

Кривая отображает количество активных пользовательских сессий web-клиентов

Зарегистрированные пользователи

График показывает количество зарегистрированных пользователей домена в реальном времени

<список доменов>

Кривые отображают количество зарегистрированных пользователей для каждого из добавленных доменов

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Увеличение числа активных регистраций может означать DDoS-атаку на соответствующий протокол (если их явно больше, чем ожидается) и возможную утечку данных учетных записей пользователей

Вкладка Чаты

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Участники звонков

График показывает количество активных участников звонков в зависимости от клиента в реальном времени

{client="all"}

Кривая отображает общее количество активных участников звонков

График носит информационный характер и не предназначен для оценки стабильности работы системы

{client="android"}

Кривая отображает количество активных участников звонков, использующих Android-клиент

{client="desktop"}

Кривая отображает количество активных участников звонков, использующих desktop-клиент

{client="ios"}

Кривая отображает количество активных участников звонков, использующих iOS-клиент

{client="web"}

Кривая отображает количество активных участников звонков, использующих web-клиент

Звонки

График показывает количество звонков для каждого из добавленных доменов в реальном времени

<список доменов>

Кривые отображают количество звонков для каждого из добавленных доменов

График носит информационный характер и не предназначен для оценки стабильности работы системы

Сообщения

График показывает количество сообщений для каждого из добавленных доменов в реальном времени

<список доменов>

Кривые отображают количество сообщений для каждого из добавленных доменов

График носит информационный характер и не предназначен для оценки стабильности работы системы

Лицензия

График показывает утилизацию лицензий в зависимости от параметра лицензии в реальном времени

<параметры лицензии>

Кривые отображают утилизацию лицензий в зависимости от параметра лицензии

Значения на графике меньше или равны количеству доступных лицензий в зависимости от параметра лицензии

Значения на графике равны количеству доступных лицензий в зависимости от параметра лицензий

Вкладка Модули

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

ЦПУ, %

График показывает использование ЦПУ различными модулями в реальном времени

<добавленные модули>

Кривые отображают использование ЦПУ различными модулями

Графики используются для комплексной оценки работы системы (например, для определения, какой модуль больше всех нагружает систему)

Память, Мб

График показывает использование памяти различными модулями в реальном времени

<добавленные модули>

Кривые отображают использование памяти различными модулями

Дисковые чтения, Кб/с

График показывает количество дисковых операций чтения в реальном времени

<добавленные модули>

Кривые отображают количество дисковых операций чтения

Дисковые записи, Кб/с

График показывает количество дисковых операций записи в реальном времени

<добавленные модули>

Кривые отображают количество дисковых операций записи

Процессы

График показывает количество процессов, запущенных модулем в реальном времени

<добавленные модули>

Кривые отображают количество процессов, запущенных модулем

Потоки

График показывает количество потоков, исполняемых модулем в реальном времени

<добавленные модули>

Кривые отображают количество потоков, исполняемых модулем

Открытые файловые дескрипторы

График показывает количество открытых модулем файловых дескрипторов в реальном времени

<добавленные модули>

Кривые отображают количество открытых модулем файловых дескрипторов

Вкладка Среда исполнения

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Утилизация областей памяти <имя модуля>, Мб

График показывает утилизацию памяти в реальном времени

CodeHeap 'non-nmethods'

Кривая отображает утилизацию памяти внутреннего кода

График используется для комплексной оценки работы системы

CodeHeap 'non-profiled nmethods'

Кривая отображает утилизацию памяти непрофилированного кода

CodeHeap 'profiled nmethods'

Кривая отображает утилизацию памяти профилированного кода

Compressed Class Space

Кривая отображает утилизацию памяти, где хранится информация о загруженных классах

G1 Eden Space

Кривая отображает утилизацию памяти, где хранятся все создаваемые в программе объекты

График используется для комплексной оценки работы системы

В одном моменте времени сумма значений кривых G1 Eden Space и G1 Old Gen не должна превышать 1,5 Гб

G1 Old Gen

Кривая отображает утилизацию памяти, занятую долгоживущими объектами

График используется для комплексной оценки работы системы

Значения на кривой не должны превышать 1 Гб для стандартной конфигурации Платформы

G1 Survivor Space

Кривая отображает утилизацию памяти, где хранятся объекты из Par Eden Space (признаны «долгоживущими»)

График используется для комплексной оценки работы системы

Metaspace

Кривая отображает утилизацию памяти, где хранится статическая информация приложения

direct

Кривая отображает изменение использования памяти прямого доступа (Direct Memory)

mapped

Кривая отображает соотношения памяти и процесса

mapped - 'non-volatile memory'

Кривая отображает использование энергозависимой памяти

Время затраченное на сбор мусора <имя модуля>, с

График показывает время, затраченное на сбор мусора в реальном времени

G1 Old Generation

Кривая отображает время, затраченное на сбор мусора G1 Old Generation

График используется для комплексной оценки работы системы.
График должен расти медленно и равномерно

Время сбора мусора не должно расти быстрее, чем 300 мс за 1 час

G1 Young Generation

Кривая отображает время, затраченное на сбор мусора G1 Young Generation

Загруженные классы

График показывает количество классов, загруженных модулем в реальном времени

<Модули системы>

Кривые отображают количество классов, загруженных модулем

График используется для комплексной оценки работы системы и предназначен для поставщика решения

Вкладка Бекэнд

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Размеры кэшей

График показывает размеры кэшэй в реальном времени

<разные графики кэш>

Кривые отображают размеры кэша для разных частей служб

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Среднее время получения элемента из кэша, мс

График показывает среднее время получения элемента из кэша в реальном времени

<разные графики кэш>

Кривые отображают среднее время получения элемента из кэша

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Среднее время поиска элемента в кэше, мс

График показывает среднее времени поиска элемента из кэша в реальном времени

<разные графики кэш>

Кривые отображают среднее время поиска элемента из кэша

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Количество поисков в секунду в кэше

График показывает количество поисков в секунду в кэше в реальном времени

<разные графики кэш>

Кривые отображают количество поисков в секунду в кэше

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Попадания в кэшах

График показывает количество попаданий в кэше в реальном времени

<разные графики кэш>

Кривые отображают количество попаданий в кэше

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Промахи в кэшах

График показывает количество промахов в кэше в реальном времени

<разные графики кэш>

Кривые отображают количество промахов в кэше

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Вытеснения из кэшей

График показывает количество вытеснений из кэшей в реальном времени

<разные графики кэш>

Кривые отображают количество вытеснений из кэшей

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Пул потоков HTTP сервера

График показывает пул потоков HTTP-сервера в реальном времени

jobs{pool="main"}

Кривая отображает количество рабочих задач в пуле потоков HTTP-сервера

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Кривая jobs{pool="main"} не должна быть приближена к кривой threads{pool="main"}

threads{pool="main"}

Кривая отображает количество свободных пулов в пуле потоков HTTP-сервера

График используется для комплексной оценки работы системы

threads_idle{pool="main"}

Кривая отображает количество ожидающих пулов в пуле потоков HTTP-сервера

Значения кривой не должны быть ниже 5, допускаются значения ниже 5 только на некоторое время.
Если значение кривой равно 0, то идет постоянная обработка задач

threads_max{pool="main"}

Кривая отображает максимально возможное количество пулов в пуле потоков HTTP-сервера

График используется для комплексной оценки работы системы

Пулы потоков ivcs-server

График показывает пул потоков ivcs-server в реальном времени

jobs{pool="имя java-процесса"}

Кривая отображает количество рабочих задач в пуле потоков ivcs-server

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Кривая jobs{pool="имя java-процесса"} не должна быть приближена к кривой threads_max{pool="имя java-процесса"}

threads_max{pool="имя java-процесса"}

Кривая отображает максимально возможное количество пулов в пуле потоков ivcs-server

Кривая используется для комплексной оценки работы системы

threads_utilized{pool="имя java-процесса"}

Кривая отображает количество используемых пулов в пуле потоков ivcs-server

Кривая используется для комплексной оценки работы системы

Запросы в секунду к HTTP серверу

График показывает количество запросов в секунду к HTTP-серверу в реальном времени

rps

Кривая отображает количество запросов в секунду к HTTP-серверу

График используется для комплексной оценки работы системы.
Оценка проводится по той нагрузке, которая свойственна для системы (с учетом наличия больших конференций и плановой нагрузке на систему)

При большом количестве запросов возможно осуществляется DDoS-атака на сервер

Количество активных запросов к HTTP серверу

График показывает количество активных запросов к HTTP-серверу в реальном времени

active_requests

Кривая отображает количество активных запросов к HTTP-серверу

График используется для комплексной оценки работы системы.
Оценка проводится по той нагрузке, которая свойственна для системы в соответствии с количеством пользователей, пользующихся сервером (обычно оценивается в ретроспективе в соответствии с историей использования)

При большом количестве запросов возможно осуществляется DDoS-атака на сервер, проведение большой конференции или какие-то ошибки на HTTP-сервере, который не успевает обрабатывать запросы

Время обработки HTTP запросов

График показывает время обработки HTTP-запросов в реальном времени

rate

Кривая отображает время обработки HTTP-запросов

Не более 200 мс

Увеличение значения свыше 200 мс может свидетельствовать об ошибках на HTTP-сервере

Исходящий трафик HTTP сервера, кб/с

График показывает исходящий трафик HTTP-сервера в реальном времени

kbps

Кривая отображает объем исходящего трафика HTTP-сервера

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
Увеличение количества исходящего трафика может означать проведение больших конференций или выгрузку пользователями больших файлов (например запись мероприятия)

Статистика ответов HTTP сервера, ответы/с

График показывает статистику ответов HTTP-сервера в реальном времени

{code="1xx"}

{code="2xx"}

{code="3xx"}

{code="4xx"}

{code="5xx"}

Кривые отображают количество различных кодов ответа HTTP-сервера

Критерий корректной работы Платформы зависит от количества и качества получаемых ответов (например, большое количество ошибок 4xx или 5xx — это потенциально некорректная работа)

Клиентские каналы событий

График показывает количество открытых клиентских каналов событий

comet

Кривая отображает количество открытых comet каналов

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

rdc

Кривая отображает количество открытых rdc каналов (каналов для управления рабочим столом)

total

Кривая отображает общее число открытых каналов всех типов

wss

Кривая отображает количество открытых WSS-каналов

Количество сообщений в клиентских каналах событий, сообщений/с

График показывает количество сообщений в клиентских каналах событий в реальном времени

comet

Кривая отображает количество сообщение в секунду во всех comet каналах

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

rdc

Кривая отображает количество сообщение в секунду во всех rdc каналах

wss

Кривая отображает количество сообщение в секунду во всех wss каналах

Трафик между узлами, кб/с

График показывает трафик между узлами в реальном времени

RX{channel="cache"}

RX{channel="main"}

Кривые отображают объем трафика, передаваемого между узлами cache / main

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

TX{channel="cache"}

TX{channel="main"}

Кривые отображают объем трафика, принимаемого между узлами cache / main

Количество сообщений в секунду между узлами кластера, сообщений/с

График показывает количество сообщений в секунду между узлами кластера в реальном времени

MQ{channel=”jchannel”}

Кривая отображает количество сообщений в очереди на отправку

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

RX{channel="cache"}

RX{channel="main"}

Кривые отображают количество передаваемых сообщений в секунду между узлами кластера

TX{channel="cache"}

TX{channel="main"}

Кривые отображают количество принимаемых сообщений в секунду между узлами кластера

Подключения к базе данных

График показывает количество активных / доступных подключений к базе данных в реальном времени

active{pool="main"}

Кривая отображает количество активных подключений к базе данных

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

active{pool="quartz"}

Кривая отображает количество активных подключений для работы JOB

idle{pool="main"}

Кривая отображает количество доступных подключений к базе данных

График используется для комплексной оценки работы системы

Количество доступных подключений к базе данных не должно приближаться к 0 на протяжении длительных периодов

idle{pool="quartz"}

Кривая отображает количество доступных подключений для работы JOB

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Вкладка Медиа

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Количество запущенных воркеров

График показывает количество запущенных воркеров в реальном времени

<список запущенных служб>

Кривые отображают количество запущенных воркеров в запущенных службах

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

Размеры SIP таблиц

График показывает размеры SIP таблиц в реальном времени

Client TXs

Кривая отображает число SIP-транзакций от клиента к серверу

Кривая используется для комплексной оценки работы системы

Dialogs

Кривая отображает текущие активные SIP-диалоги

Значение Dialogs зависит от ретроспективы в соответствии с историей использования

Рост числа активных диалогов может означать DDoS-атаку на SIP

Early dialogs

Кривая отображает текущие активные SIP-диалоги

Server TXs

Кривая отображает число SIP-транзакций от сервера к клиенту

Кривая используется для комплексной оценки работы системы

Сессии

График показывает количество сессий в реальном времени

H.323 sessions

Кривая отображает количество H.323-сессий

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

SIP sessions

Кривая отображает количество SIP-сессий

Подключения к базе данных

График показывает количество активных / доступных подключений к базе данных в реальном времени

active{pool="main"}

Кривая отображает количество активных подключений к базе данных

Кривая используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

idle{pool="main"}

Кривая отображает количество свободных подключений к базе данных

Кривая используется для комплексной оценки работы системы

Количество доступных подключений к базе данных не должно приближаться к 0 на протяжении длительных периодов

Количество падений медиа процесса

График показывает количество падений медиапроцесса в реальном времени

<название медиапроцесса>

Кривая отображает количество падений медиапроцесса

Отсутствие падений медиапроцессов

Рост падений медиапроцессов

RTMP потоки

График показывает количество RTMP-потоков в реальном времени

RTMP streams

График отображает количество RTMP-потоков в реальном времени

График носит информационный характер и не предназначен для оценки работы системы

HTTP FLV подписчики

График показывает количество HTTP FLV подписчиков в реальном времени

HTTP FLV subscribers

График отображает количество участников, просматривающих контент через HTTP FLV

График носит информационный характер и не предназначен для оценки работы системы

Число отключений медленных HTTP FLV участников в секунду

График показывает количество отключений медленных HTTP FLV участников в секунду в реальном времени

HTTP FLV subscribers drops

График отображает количество отключений медленных HTTP FLV участников в секунду

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Количество TURN релеев

График показывает количество TURN-релеев в реальном времени

allocation{instance=<IP-адрес>, job=<IP-адрес>}

График отображает количество TURN-релеев

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Количество TURN релеев не должно превышать удвоенное число участников в рамках WebRTC-конференций

Входящий TURN трафик, Мб/с

График показывает исходящий TURN-трафик в реальном времени

{ip=”all”}

{ip=<IP адрес>}

График отображает исходящий TURN-трафик по конкретному либо по всем IP-адресам

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Входящий TURN-трафик не должен быть больше, чем число пользователей в WebRTC-конференциях, умноженное на 1 Мбит/с

Исходящий TURN трафик, Мб/с

График показывает исходящий TURN-трафик в реальном времени

{ip=”all”}

{ip=<IP адрес>}

График отображает исходящий TURN-трафик по конкретному либо по всем IP-адресам

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Исходящий TURN-трафик не должен быть больше, чем число пользователей в WebRTC-конференциях, умноженное на 2 Мбит/с

Ошибки TURN

График показывает количество ошибок TURN в реальном времени

{code=”401_invalid_credentials”}

Кривая отображает количество ошибок TURN с кодом 401 (неверные учетные данные)

Критерий корректной работы Платформы зависит от количества и качества получаемых ответов

{code=”403_access_denied”}

Кривая отображает количество ошибок TURN с кодом 403 (доступ запрещен)

{code=”430_expired_credentials”}

Кривая отображает количество ошибок TURN с кодом 430 (просроченные учетные данные)

{code=”508_limit_reached”}

Кривая отображает количество ошибок TURN с кодом 508 (достигнут лимит запросов)

Вкладка Внутренности

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Паузы монотонного таймера, с

График показывает паузы монотонного таймера в каждом из модулей в реальном времени

<список модулей>

Кривые отображают паузы монотонного таймера в каждом из модулей.
Расчет осуществляется как разница между временем, когда модуль получает управление от сервера и ожидаемым временем его получения

Паузы таймера не должны превышать 20 мс

Повышение значения выше 20 мс (может свидетельствовать о перегрузке системы, замиранием виртуальной машины или других проблемах)

Паузы не монотонного таймера, с

График показывает паузы не монотонного таймера перед запуском служб в модуле в реальном времени

<список модулей>

Кривые отображают паузы не монотонного таймера перед запуском служб в модулях

График используется для комплексной оценки работы системы

Задержка обращения к файловому хранилищу, мс

График показывает задержки обращения к файловому хранилищу в реальном времени

/mnt/filestorage/ivcs-server

Кривая отображает задержки обращения к файловому хранилищу

Минимальная задержка обращения к файловому хранилищу

Задержка между головным сервером и файловым хранилищем не должна превышать 20 мс

/mnt/filestorage/media

Кривая отображает задержки обращения к файловому хранилищу

Минимальная задержка обращения к файловому хранилищу

Задержка между медиасервером и файловым хранилищем не должна превышать 20 мс

Ошибки обращения к файловому хранилищу

График показывает ошибки обращения к файловому хранилищу в реальном времени

-

Кривая отображает ошибки обращения к файловому хранилищу

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Размеры SIP таблиц в SGW

График показывает размеры SIP таблиц в реальном времени

Client TXs

Кривая отображает число SIP-транзакций от клиента к серверу

График используется для комплексной оценки работы системы

Dialogs

Кривая отображает текущие активные SIP-диалоги

Значение Dialogs зависит от ретроспективы в соответствии с историей использования

Рост числа активных диалогов может означать DDoS-атаку на SIP

Early dialogs

Кривая отображает текущие активные SIP-диалоги

Server TXs

Кривая отображает число SIP-транзакций от сервера к клиенту

График используется для комплексной оценки работы системы

SGW вызовы

График показывает количество обрабатываемых или инициируемых gateway SGW-вызовов в зависимости от протокола в реальном времени

B2B calls

Кривая отображает количество полностью активных звонков (установлено соединение между внешним и внутренним контурами)

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Увеличение количества вызовов может означать DDoS-атаку на соответствующий протокол

H.323 legs

Кривая отображает количество активных звонков между сервером и клиентами по протоколу H.323 (полностью установленный звонок между внешним и внутренним контурами требует двух активных звонков между сервером и клиентами)

MSSIP legs

Кривая отображает количество вызовов между сервером и клиентами по протоколу MSSIP

SIP legs

Кривая отображает количество активных звонков между сервером и клиентами по протоколу SIP

SGW вызовы в секунду

График показывает количество обрабатываемых или инициируемых gateway SGW-вызовов в течение одной секунды в зависимости от протокола в реальном времени

<название протокола>

Кривая отображает количество вызовов между сервером и клиентами по протоколу

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Увеличение количества вызовов может означать DDoS-атаку на соответствующий протокол

SGW трафик медиа прокси, мбит/с

График показывает объем SGW-трафика медиа прокси в реальном времени

RX

Кривая отображает полученный трафик медиа прокси

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Увеличение количества исходящего / входящего трафика относительно обычного значения может означать проведение внеплановых конференций

TX

Кривая отображает переданный трафик медиа прокси

Nginx соединения

График показывает количество Nginx-соединений в реальном времени

alive

Кривая отображает количество активных подключений, включая ожидающие

График используется для комплексной оценки работы системы.
Количество соединений не должно иметь большого значения т. к. используется только администраторами

Увеличение количества соединений, может свидетельствовать о том, что к серверу получили несанкционированный доступ

reading

Кривая отображает количество подключений, при которых Nginx читает заголовок запроса

waiting

Кривая отображает количество простаивающих клиентских подключений, ожидающих запроса

writing

Кривая отображает текущее количество подключений, при которых Nginx записывает ответ обратно клиенту

Nginx запросы в секунду

График показывает количество Nginx-запросов в секунду в реальном времени

rps

Кривая отображает количество Nginx-запросов в секунду

График используется для комплексной оценки работы системы. Количество запросов не должно иметь большого значения, т. к. используется только администраторами

Увеличение количества запросов, может свидетельствовать о том, что к серверу пытаются получить несанкционированный доступ

Реестр сервисов подключения

График показывает реестр сервисов подключений в реальном времени

dropped

Кривая отображает количество сброшенных подключений

График предназначен для разработчиков Платформы IVA MCU и используется для комплексной оценки работы системы

rejected

Кривая отображает количество отклоненных подключений

revalidated

Кривая отображает количество повторно подтвержденных подключений

requested

Кривая отображает количество запрошенных подключений

Размер баз данных, Мб

График показывает количество памяти, выделенное в базе данных для различных частей в реальном времени

<список баз данных>

Кривые отображают количество памяти, выделенное в базе данных для различных частей

Размер баз данных зависит от времени хранения логов в системе

Рост размера баз данных может говорить о DDoS-атаке или о необходимости уменьшения времени хранения истории аудита и событий

Подключения к базе данных <Наименование базы данных>

График показывает количество подключений к базе данных и их статус в реальном времени

<статус подключения к базе данных>

Кривые отображают количество подключений к базе данных и их статус

График используется для комплексной оценки работы системы

Подключения к базам данных

График показывает подключения к базам данных в реальном времени

<список баз данных и статус подключения>

Кривая отображает количество подключений к базам данных и их статус

График используется для комплексной оценки работы системы.
Обычно в состоянии active и idle in transaction должно быть не более 5 запросов (в коротком промежутке времени)

Постоянное количество подключений active и idle in transaction более 5 и их рост означает какие-то проблемы или с БД, или с ростом нагрузки на систему

Взаимные блокировки

График показывает количество взаимных блокировок в реальном времени

<список баз данных>

Кривая отображает количество взаимных блокировок

Для корректной работы системы необходимо отсутствие взаимных блокировок

Присутствие и рост взаимных блокировок

Задержка репликации, байты

График показывает количество байт задержки репликации в реальном времени

-

Кривая отображает количество байт задержки репликации

Минимальное значение задержки репликации

Высокая задержка репликации означает медленную передачу данных между узлами, что может вызвать задержку в доступности данных

Срабатывания Fail2ban

График показывает срабатывания Fail2ban в реальном времени

{jail="sgw-01"}

{jail="sgw-02"}

{jail="sgw-03"}

{jail="sshd"}

Кривая отображает количество срабатываний блокировки Fail2ban по числу SIP- / H.323-регистраций с одного IP-адреса

Fail2ban срабатывает (при сильном росте может означать наличие DoS-атак по соответствующему протоколу)

Количество IP заблокированных Fail2ban

График количества IP заблокированных Fail2ban

{jail="sgw-01"}

{jail="sgw-02"}

{jail="sgw-03"}

{jail="sshd"}

Кривая отображает количество срабатываний блокировки Fail2ban по числу звонков с одного IP-адреса

Fail2ban срабатывает (рост количества IP-адресов, заблокированных Fail2ban, может говорить о наличии DoS-атаки на соответствующий протокол)

Размер очереди конвертации

График показывает количество файлов в очереди на конвертацию в реальном времени

Conversion queue size

График отображает количество файлов в очереди на конвертацию

Очередь на конвертацию должна соответствовать загрузке системы

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Количество обработанных документов

График показывает количество обработанных файлов в реальном времени

Extension=”<формат файла>”

График отображает количество обработанных файлов

Количество обработанных документов не должно быстро возрастать, не должно быть аномалий

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Количество неудачных конвертаций

График показывает количество неудачных конвертаций файлов в реальном времени

Extension=”<формат файла>”

График отображает количество неудачных конвертаций файлов

Количество неудачных конвертаций не должно быстро возрастать, не должно быть больше показателя Количество обработанных документов

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Общее время, затраченное на конвертацию, с

График показывает общее время, затраченное на конвертацию файлов в реальном времени

Extension=”<формат файла>”

График отображает общее время, затраченное на конвертацию файлов

Соответствие планируемой нагрузке, отсутствие падений графика до 0

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Вкладка SIEM & DLP

График Описание графика Отображаемые кривые Описание кривых Критерии корректной работы Платформы Критичные значения

Отправлено SIEM сообщений

График показывает количество отправленных SIEM-сообщений в реальном времени

Searchinform

График отображает количество отправленных SIEM-сообщений в реальном времени

Количество отправленных SIEM-сообщений должно соответствовать ожидаемому объему, отсутствие аномалий, согласованность с другими метриками

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Не отправлено SIEM сообщений

График показывает количество не отправленных SIEM-сообщений в реальном времени

Searchinform

График отображает количество не отправленных SIEM-сообщений в реальном времени

Количество не отправленных SIEM-сообщений не должно быть большим, необходимо анализировать в сочетании с другими метриками

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Очередь SIEM сообщений

График показывает очередь SIEM-сообщений в реальном времени

Drop events

Кривая отображает количество сообщений, ожидающих обработки в очереди SIEM-системы

Очереди SIEM-сообщений должны соответствовать загрузке системы

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

Events in queue

Кривая отображает количество событий, которые SIEM-система не смогла обработать и была вынуждена отклонить

Просканировано файлов DLP

График показывает количество просканированных файлов DLP в реальном времени

DLP clear

Кривая отображает количество файлов, которые были просканированы и не содержат нарушений политик DLP

График используется для комплексного определения работы DLP, кривые не должны содержать аномалий и соответствовать ожидаемой загрузке

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

DLP detected

Кривая отображает количество файлов, в которых DLP-система обнаружила нарушения

DLP error on save

Кривая отображает количество файлов, которые не удалось сохранить после обработки (например, из-за проблем с хранилищем, сетью или правами доступа)

DLP errors

Кривая отображает количество файлов, которые не удалось обработать из-за ошибок (например, проблемы с доступом, повреждение файла, сбой в работе DLP-системы)

DLP saved

Кривая отображает количество файлов, которые были успешно обработаны и сохранены после сканирования

DLP total

Кривая отображает общее количество просканированных файлов DLP

Просканировано файлов антивирусом

График показывает количество просканированных файлов антивирусом в реальном времени

AV Scan clear

Кривая отображает количество файлов, которые были просканированы и не содержат угроз (вирусов, вредоносного ПО и т. д.)

График используется для комплексной оценки работы антивируса. Кривые должны отображать ожидаемые значения в зависимости от загрузки системы антивируса

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

AV Scan detected

Кривая отображает количество файлов, в которых антивирус обнаружил угрозы (вирусы, вредоносное ПО и т. д.)

AV Scan errors

Кривая отображает количество файлов, которые не удалось просканировать из-за ошибок (повреждение файла, отсутствие доступа, сбой в работе антивируса)

AV Scan total

Кривая отображает общее количество просканированных файлов антивирусом

AV Scan undetectable

Кривая отображает количество файлов, которые антивирус не смог проверить (например, из-за неизвестного формата, шифрования или ограничений антивирусной базы)

Анализ текстовых сообщений в DLP

График показывает количество проанализированных текстовых сообщений в DLP в реальном времени

DLP clean

Кривая показывает количество сообщений, которые были проанализированы и не содержат нарушений политик DLP

График используется для комплексной оценки работы системы анализа текстовых сообщений в DLP, не должно быть резких изменений графика (если это не спланировано, например тестами)

График используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)

DLP detected

Кривая показывает количество сообщений, в которых DLP-система обнаружила нарушения

DLP engine error

Кривая показывает количество ошибок, возникших при обработке сообщений