Мониторинг

Статистика использования системы

IVA SBC предоставляет пользователям графический отчёт (dashboard), который выдаёт статистику использования системы в удобной для восприятия форме и позволяет оценить нагрузку на оборудование.

Чтобы провести мониторинг производительности IVA SBC, необходимо:

  1. перейти в раздел Мониторинг

  2. выбрать сервер IVA SBC (например, сервер проксирования с IP-адресом 10.0.202.202 или сервер управления и конфигурации с IP-адресом 10.0.202.203)

  3. выбрать период вывода статистики

  4. выбрать значение вывода графика (отображает Максимальное / Среднее / Минимальное значение кривой графика в выбранный промежуток времени)

  5. перейти на необходимую вкладку (Система, Сеть, Диск, Модули, Среда исполнения, HTTP, VVoIP, Внутренности, TURN сервер) и выбрать график

Вкладки HTTP, VVoIP, и TURN сервер не отображаются для сервера управления и конфигурации
Мониторинг IVA SBC

При необходимости можно:

  • экспортировать графики: нажать кнопку Скачать

  • отключить отображение определенного графика: выбрать и нажать на название графика в списке отображаемых графиков (например, {mode = “idle”})

  • включить автообновление графиков: нажать переключатель Автообновление

  • включить отображение таблиц с минимальными / средними / максимальными / последними показателями графика: нажать переключатель Отображать таблицы

Используемые метрики Мониторинга IVA SBC

Графики, отображаемые кривые, вкладки и их содержание могут отличаться в зависимости от выбранного сервера, модулей серверной части и запущенных служб

Вкладка Система

На вкладке Система для сервера проксирования и сервера управления и конфигурации отображаются следующие графики:

  1. график ЦПУ, % показывает загрузку процессора в реальном времени на следующих кривых:

    График ЦПУ
    • кривая {mode="idle"} — отображает процент времени, в течение которого ЦПУ находится в состоянии ожидания, не выполняя никаких задач

    • кривая {mode="iowait"} — отображает процент времени, в течение которого ЦПУ ожидает завершения операций ввода-вывода

    • кривая {mode=" irq "} — отображает процент времени, в течение которого ЦПУ занимается обработкой прерываний от оборудования

    • кривая {mode="nice"} — отображает процент времени, в течение которого ЦПУ занимается выполнением пользовательских задач с увеличенным приоритетом (nice)

    • кривая {mode="softirq"} — отображает процент времени, в течение которого ЦПУ обрабатывает программные прерывания (softirq)

    • кривая {mode="steal"} — отображает процент времени, в течение которого виртуальная машина не получает ресурсы процессора для своего выполнения

    • кривая {mode="system"} — отображает процент времени, в течение которого ЦПУ занимается выполнением системных задач

    • кривая {mode="user"} — отображает процент времени, в течение которого ЦПУ занимается выполнением пользовательских задач

      При корректной работе системы значения кривой {mode="idle"} должны находиться в диапазоне от 10 до 100 %.

      Аварийными считаются значения кривой {mode="idle"} менее 10 % на протяжении 2 минут, при этом возможно система перегружена, и необходимо определить источник возникновения данной проблемы

      Для остальных кривых корректная работа системы обеспечивается, если значения находятся в диапазоне от 0 до 80 %, при этом превышения значений выше 80 % может привести к нестабильной работе системы

  2. график Средняя загрузка показывает среднюю загрузку процессора в реальном времени на следующих кривых:

    График Средняя загрузка
    • кривая node_load1 — отображает среднюю загрузку системы за 1 минуту

    • кривая node_load5 — отображает среднюю загрузку системы за 5 минут

    • кривая node_load15-- отображает среднюю загрузку системы за 15 минут

      При корректной работе системы значения кривых должны находиться в диапазоне от 0 до n, где n — общее количество ядер процессора

      Превышение значения n более чем на 70 %, означает что на процессор идёт повышенная нагрузка, которая может привести к медленному отклику процесса, что повлияет на нормальную работу системы

  3. график Память, ГБ показывает информацию об использованной и неиспользованной памяти в реальном времени на следующих кривых: image::monitoring/system/memory.png[График Память, ГБ,width=661,link=self]

    • кривая Avaible — отображает объём памяти, который доступен для выделения новому или существующему процессу

    • кривая Buffered — отображает объём памяти, зарезервированный системой для выделения её процессам, когда им это потребуется

    • кривая Cached — отображает объём данных, которые недавно были использованы системой / процессами и временно сохранены для быстрого доступа в случае их повторного использования

    • кривая Free — отображает объём свободной памяти, которая в данный момент не используется

    • кривая Slab — отображает объём памяти, за счёт которого кэш (Cached) может увеличиваться или уменьшаться

      При корректной работе системы значения кривых не должны превышать объём доступной памяти

      Если значения кривых близки к максимальным (с учетом файла подкачки), то система может не иметь достаточного места для хранения временных файлов, кэша и других данных, что может привести к их потере

  4. график Временные файловые системы, ГБ показывает информацию об использованной и неиспользованной памяти для хранения временных файлов в реальном времени на следующих кривых:

    График Временные файловые системы
    • кривая Free{mountpoint="/run"} — отображает общий объём свободной памяти

    • кривая Free{mountpoint="/run/live/overlay"} — отображает объём свободной памяти для временных изменений и кэширования файлов Live-системы

    • кривая Free{mountpoint="/run/lock} — отображает свободную память для файлов блокировки, используемых для предотвращения одновременного доступа к ресурсам между несколькими процессами

    • кривая Free{mountpoint="/run/user/1000”} — отображает свободную память для временных файлов пользователя

    • кривая Free{mountpoint="/usr/lib/live/mount"} — отображает объём свободной памяти для временного монтирования Live-образов файловой системы

    • кривая Free{mountpoint="/usr/lib/live/mount/overlay"} — отображает объём свободной памяти для записи временных изменений и кэширования файлов во время работы Live-системы

    • кривая Reserved{mountpoint="/run"} — отображает общий объём зарезервированной памяти

    • кривая Reserved{mountpoint="/run/live/overlay"} — отображает зарезервированную память для временных изменений и кэширования файлов для Live-системы

    • кривая Reserved{mountpoint="/run/lock} — отображает зарезервированную память для файлов блокировки, используемых для предотвращения одновременного доступа к ресурсам между несколькими процессами

    • кривая Reserved{mountpoint="/run/user/1000”} — отображает зарезервированную память для временных файлов пользователя

    • кривая Reserved{mountpoint="/usr/lib/live/mount"} — отображает зарезервированную память для временного монтирования Live-образов файловой системы

    • кривая Reserved{mountpoint="/usr/lib/live/mount/overlay"} — отображает зарезервированную память для записи временных изменений и кэширования файлов во время работы Live-системы

    • кривая Used{mountpoint="/run"} — отображает общий объём используемой памяти

    • кривая Used{mountpoint="/run/live/overlay"} — отображает используемую память для временных изменений и кэширования файлов для Live-системы

    • кривая Used{mountpoint="/run/lock} — отображает используемую память для файлов блокировки, используемых для предотвращения одновременного доступа к ресурсам между несколькими процессами

    • кривая Used {mountpoint="/run/user/1000”} — отображает используемую память для временных файлов пользователя

    • кривая Used{mountpoint="/usr/lib/live/mount"} — отображает используемую память для временного монтирования образов файловой системы

    • кривая Used{mountpoint="/usr/lib/live/mount/overlay"} — отображает используемую память для записи временных изменений и кэширования файлов во время работы Live-системы

      При корректной работе системы значения кривых не должны превышать объём доступной памяти

      Если значения кривых близки к максимальным (с учетом файла подкачки), то система может не иметь достаточного места для хранения временных файлов, кэша и других данных, что может привести к их потере

  5. график Переключения контекста/c показывает количество переключений в секунду между контекстом userspace и systemspace в реальном времени на кривой Context switches

    График Переключения контекста/c
    График Переключения контекста используется для комплексной оценки работы системы. Данный график необходимо анализировать совместно с другими метриками (например, с показателем загрузки системы)
    Резкий рост количества переключений может свидетельствовать о возможных проблемах в системе
  6. график Время работы, часы показывает количество времени беспрерывной работы системы в реальном времени на кривой Uptime

    График Время работы
    График носит информационный характер и не предназначен для оценки работы системы

Вкладка Сеть

На вкладке Сеть для сервера проксирования и сервера управления и конфигурации отображаются следующие графики:

  1. график Трафик, мбит/с показывает загрузку сетевых каналов в реальном времени на следующих кривых:

    График Трафик
    • кривая RX{device="eth0"} — отображает загрузку сетевого канала приёма через интерфейс eth0

    • кривая RX{device="lo"} — отображает загрузку сетевого канала приёма через интерфейс loopback

    • кривая TX{device="eth0"} — отображает загрузку сетевого канала передачи через интерфейс eth0

    • кривая TX{device="lo"} — отображает загрузку сетевого канала передачи через интерфейс loopback

      Значения на графике должны отображать ожидаемую среднюю нагрузку системы (в соответствии с опытом эксплуатации)
  2. график Ошибки показывает количество возникших ошибок в реальном времени на следующих кривых:

    График Ошибки
    • кривая RX errors{device="eth0"} — отображает количество ошибок по сетевому каналу приёма через интерфейс eth0

    • кривая RX errors{device="lo"} — отображает количество ошибок по сетевому каналу приёма через интерфейс loopback

    • кривая TX errors{device="eth0"} — отображает количество ошибок по сетевому каналу передачи через интерфейс eth0

    • кривая TX errors{device="lo"} — отображает количество ошибок по сетевому каналу передачи через интерфейс loopback

      При корректной работе системы количество ошибок не должно быстро расти. Если происходят частые ошибки, это может быть связано с перегрузкой оборудования или каналов.
      Данный график необходимо анализировать в сочетании с другими метриками (например, с анализом объема трафика сети и нагрузки на систему)
  3. график Пакеты показывает количество пакетов на прием / передачу в реальном времени на следующих кривых:

    График Пакеты
    • кривая RX packets/s{device="eth0"} — отображает количество принятых пакетов по сетевому каналу через интерфейс eth0

    • кривая RX packets/s{device="lo"} — отображает количество принятых пакетов по сетевому каналу через интерфейс loopback

    • кривая TX packets/s{device="eth0"} — отображает количество переданных пакетов по сетевому каналу через интерфейс eth0

    • кривая TX packets/s{device="lo"} — отображает количество переданных пакетов по сетевому каналу через интерфейс loopback

      График Пакеты используется для комплексного анализа исходящего / входящего трафика в системе
  4. график Размеры UDP очередей, Кб показывает размер UDP-очередей в реальном времени на следующих кривых:

    График Размеры UDP очередей
    • кривая Queue size{ip="v4", queue="rx"} — отображает размер UDP-очередей по протоколу IPv4 при приёме

    • кривая Queue size{ip="v4", queue="tx"} — отображает размер UDP-очередей по протоколу IPv4 при передаче

    • кривая Queue size{ip="v6", queue="rx"} — отображает размер UDP-очередей по протоколу IPv6 при приёме

    • кривая Queue size{ip="v6", queue="tx"} — отображает размер UDP-очередей по протоколу IPv6 при передаче

      При корректной работе системы размеры UDP-очередей не должны превышать среднюю нагрузку системы. Резкий рост очереди означает, что система не успевает отправлять пакеты в сеть, и они копятся в сетевом интерфейсе, что приводит к задержке отправки данных в сеть
  5. график Задержки сетевых вызовов, мс показывает время задержки вызова между серверами системы в реальном времени на кривых <IP-адрес добавленного сервера>

    График Задержки сетевых вызовов
    При корректной работе системы задержка сетевых вызовов между различными серверами не должна превышать 20 мс
  6. график Таймауты сетевых вызовов показывает количество таймаутов, возникающих при сетевых вызовах в реальном времени на кривых <IP-адрес добавленного сервера>

    График Таймауты сетевых вызовов
    При корректной работе системы значение времени таймаутов сетевых вызовов должно быть минимальным
  7. график Расширенные метрики TCP показывает расширенные метрики TCP-соединений в реальном времени на следующих кривых:

    График Расширенные метрики TCP
    • кривая ListenDrops — отображает количество входящих соединений (пакетов SYN), прерванных по какой-либо причине

    • кривая Listenoverflows — отображает число случаев превышения верхнего предела очереди прослушивания

    • кривая SyncookiesFailed — отображает количество полученных пакетов с неверной информацией SYN Cookie

    • кривая SyncookiesRecv — отображает количество пакетов SYN / ACK, полученных через SYN Cookie

    • кривая SyncookiesSent — отображает количество пакетов SYN / ACK, отправленных через SYN Cookie

    • кривая TCPSynRetrans — отображает количество повторных соединений (пакетов SYN)

    При корректной работе системы расширенные метрики TCP-соединений должны иметь минимальные значения.Увеличение значений с образованием пиков на графике может свидетельствовать о проблемах с сетью

Вкладка Диск

На вкладке Диск для сервера проксирования и сервера управления и конфигурации отображаются следующие графики:

  1. график /, ГБ показывает информацию об использованной и неиспользованной памяти для хранения системных файлов в реальном времени на следующих кривых:

    График /
    • кривая Free{device="/dev/sda1"} — отображает информацию о свободном объёме памяти физического диска

    • кривая Reserved{device="/dev/sda1"} — отображает информацию о зарезервированном объёме памяти физического диска

    • кривая Used{device="/dev/sda1"} — отображает информацию об используемом объёме памяти физического диска

    Для корректной работы системы необходимо, чтобы доступное свободное пространство составляло не менее 2 ГБ
  2. график Число операций слияния в секунду показывает число объединённых операций в секунду в реальном времени на следующих кривых:

    График Число операций слияния в секунду
    • кривая Reads merged{device="sda"} — отображает число объединённых операций чтения в секунду на физическом диске

    • кривая Reads merged{device="sr0"} — отображает число объединённых операций чтения в секунду на логическом диске

    • кривая Writes merged{device="sda"} — отображает число объединённых операций записи в секунду на физическом диске

    • кривая Writes merged{device="sr0"} — отображает число объединённых операций записи в секунду на логическом диске

    График Число операций слияния в секунду используется для комплексной оценки работы системы.
    Возрастание нагрузки обычно связано с записью данных логов на диск
  3. график Операции ввода/вывода, МБ/с показывает объём операций ввода / вывода в реальном времени на следующих кривых:

  4. график Операции ввода/вывода, МБ/с показывает объём операций ввода / вывода в реальном времени на следующих кривых:

    График Операции ввода/вывода
    • кривая Reads{device="sda"} — отображает объём операций чтения на физическом диске

    • кривая Reads{device="sr0"} — отображает объём операций чтения на логическом диске

    • кривая Writes{device="sda"} — отображает объём операций записи на физическом диске

    • кривая Writes{device="sr0"} — отображает объём операций записи на логическом диске

    График Операции ввода / вывода используется для комплексной оценки работы системы.
    Возрастание нагрузки обычно связано с записью данных логов на диск
  5. график Число дисковых операций в секунду показывает число дисковых операций в секунду в реальном времени на следующих кривых:

    График Число дисковых операций в секунду
    • кривая Reads{device="sda"} — отображает число дисковых операций записи на физическом диске

    • кривая Reads{device="sr0"} — отображает число дисковых операций записи на логическом диске

    • кривая Writes{device="sda"} — отображает число дисковых операций записи на физическом диске

    • кривая Writes{device="sr0"} — отображает число дисковых операций записи на логическом диске

    График Число дисковых операций в секунду используется для комплексной оценки работы системы.
    Возрастание нагрузки обычно связано с записью данных логов на диск
  6. график Использование пропускной способности, % показывает использование пропускной способности диска в реальном времени на следующих кривых:

    График Использование пропускной способности
    • кривая I/O utilization{device="sda"} — отображает процент используемой пропускной способности на физическом диске

    • кривая I/O utilization{device="sr0"} — отображает процент используемой пропускной способности на логическом диске

    График Использование пропускной способности используется для комплексной оценки работы системы.
    Возрастание нагрузки обычно связано с записью данных логов на диск
  7. график Среднее время операции, мс показывает среднее время операции в реальном времени на следующих кривых:

    График Среднее время операции
    • кривая Avg time/op read{device="sda"} — отображает среднее время операции чтения на физическом диске

    • кривая Avg time/op read{device="sr0"} (для сервера проксирования) — отображает среднее время операции чтения на логическом диске

    • кривая Avg time/op write{device="sda"} — отображает среднее время операции записи на физическом диске

    График Среднее время операции используется для комплексной оценки работы системы.
    Возрастание нагрузки обычно связано с записью данных логов на диск

Вкладка Модули

В IVA SBC могут отображаться следующие модули:

  • Auditbeat — модуль, отвечающий за аудит системных событий в операционной системе

  • Auditd — модуль, отвечающий за аудит системных событий в операционной системе

  • Collectd — модуль, собирающий статистику в rdd-файлы (по умолчанию отключен)

  • Corosync — модуль, отвечающий за согласование и синхронизацию между узлами кластера

  • Fail2ban-server — сервер, блокирующий IP-адреса по различным событиям

  • Filebeat — модуль, отвечающий за аудит системных событий в операционной системе

  • Keepalived — модуль, отвечающий за управление плавающими IP-адресами

  • Kesl — антивирус Kaspersky Endpoint Security для Linux (если установлен)

  • Klnagent — модуль Агента администрирования антивируса Kaspersky (если установлен)

  • Monitoring — модуль, отвечающий за мониторинг и управление сервером и его параметрами

  • Pacemaker (не используется на всех серверах и отключен) — модуль, отвечающий за автоматическое управление и мониторинг нескольких серверов одновременно

  • Postgres (только на сервере управления и конфигурации) — модуль, отвечающий за базу данных

  • Prometheus-node-exporter — модуль, отвечающий за сбор статистики для Victoria-metrics с параметрами работы системы

  • Registry — модуль, отвечающий за регистрацию компонент

  • Sbc (только на сервере проксирования) — модуль, отвечающий за TURN и HTTP Reverse Proxy

  • Sbc-cfg-server (только на сервере управления и конфигурации) — модуль, отвечающий за конфигурирование серверов проксирования

  • Victoria-metrics — модуль, отвечающий за локальное хранение статистики параметров работы сервера

  • Vmalert — модуль, отвечающий за сбор системных аварий

  • Voip-signalling-gateway (только на сервере проксирования) — модуль, отвечающий за VoIP-проксирование для SIP- /H.323-сигнализации и RTP

  • Wdserver — модуль, отвечающий за системный сервис анализа

На вкладке Модули для сервера проксирования и сервера управления и конфигурации отображаются следующие графики:

  1. график ЦПУ, % показывает использование ЦПУ различными модулями в реальном времени на кривых <Название модуля>

    График ЦПУ
    График ЦПУ используется для комплексной оценки работы системы (например, для выявления модуля, оказывающего наибольшую нагрузку на систему)
  2. график Память, МБ показывает использование памяти различными модулями в реальном времени на кривых <Название модуля>

    График Память
    График Память используется для комплексной оценки работы системы
  3. график Дисковые чтения, Кб/с показывает количество дисковых операции чтения в реальном времени на кривых <Название модуля>

    График Дисковые чтения
    График Дисковые чтения используется для комплексной оценки работы системы
  4. график Дисковые записи, Кб/с показывает количество дисковых операций записи в реальном времени на кривых <Название модуля>

    График Дисковые записи
    График Дисковые записи используется для комплексной оценки работы системы (например, для определения, какой модуль больше всех нагружает систему)
  5. график Процессы показывает количество процессов, запущенных модулем в реальном времени, на кривых <Название модуля>

    График Процессы
    График Процессы используется для комплексной оценки работы системы
  6. график Потоки показывает количество потоков, исполняемых модулем в реальном времени, на кривых <Название модуля>

    График Потоки
    График Потоки используется для комплексной оценки работы системы.
    При корректной работе системы количество потоков не должно возрастать
  7. график Открытые файловые дескрипторы показывает количество открытых модулем файловых дескрипторов в реальном времени на кривых <Название модуля>

    График Открытые файловые дескрипторы
    График Открытые файловые дескрипторы используется для комплексной оценки работы системы

Вкладка Среда исполнения

На вкладке Среда исполнения для сервера проксирования ('sbc', 'monitoring' и 'voip-signalling-gateway') и сервера управления и конфигурации ('sbc-cfg-server' и 'monitoring') отображаются следующие графики:

  1. график Утилизация областей памяти ('sbc' / 'sbc-cfg-server'), МБ показывает утилизацию памяти в реальном времени на следующих кривых:

    График Утилизация областей памяти ('sbc' / 'sbc-cfg-server')
    • кривая CodeHeap 'non-nmethods' — отображает утилизацию памяти внутреннего кода

    • кривая CodeHeap 'non-profiled nmethods' — отображает утилизацию памяти непрофилированного кода

    • кривая CodeHeap 'profiled nmethods' — отображает утилизацию памяти профилированного кода

    • кривая Compressed Class Space — отображает утилизацию памяти, где хранится информация о загруженных классах

    • кривая G1 Eden Space — отображает утилизацию памяти, где хранятся все создаваемые в программе объекты

    • кривая G1 Old Gen — отображает утилизацию памяти, занятой долгоживущими объектами

      Рекомендуется выполнять мониторинг значений G1 Old Gen
    • кривая G1 Survivol Space — отображает утилизацию памяти, где хранятся объекты из Par Eden Space (признаны долгоживущими)

    • кривая Metaspace — отображает утилизацию памяти, где хранится статическая информация приложения

    • кривая direct — отображает изменение использования памяти прямого доступа (Direct Memory)

    • кривая mapped — отображает соотношения памяти и процесса

    • кривая mapped - 'non-volatile memory' — отображает использование энергозависимой памяти

    График Утилизация областей памяти используется для комплексной оценки работы системы
  2. график Время затраченное на сбор мусора ('sbc' / 'sbc-cfg-server'), с показывает время, затраченное на сбор мусора в реальном времени, на следующих кривых:

    График Время затраченное на сбор мусора ('sbc' / 'sbc-cfg-server')
    • кривая G1 Old Generation — отображает время, затраченное на сбор мусора G1 Old Generation

    • кривая G1 Young Generation — отображает время, затраченное на сбор мусора G1 Young Generation

    График Время затраченное на сбор мусора используется для комплексной оценки работы системы. При корректной работе системы кривые на графике должны расти медленно и равномерно
  3. график Утилизация областей памяти ('monitoring'), МБ показывает утилизацию памяти в реальном времени на следующих кривых:

    График Утилизация областей памяти ('monitoring')
    • кривая CodeHeap 'non-nmethods' — отображает утилизацию памяти внутреннего кода

    • кривая CodeHeap 'non-profiled nmethods' — отображает утилизацию памяти непрофилированного кода

    • кривая CodeHeap 'profiled nmethods' — отображает утилизацию памяти профилированного кода

    • кривая Compressed Class Space — отображает утилизацию памяти, где хранится информация о загруженных классах

    • кривая G1 Eden Space — отображает утилизацию памяти, где хранятся все созданные в программе объекты

    • кривая G1 Old Gen — отображает утилизацию памяти, которая занята долгоживущими объектами

      Рекомендуется выполнять мониторинг значений G1 Old Gen
    • G1 Survivol Space — отображает утилизацию памяти, где хранятся объекты из Par Eden Space (признаны долгоживущими)

    • кривая Metaspace — отображает утилизацию памяти, где хранится статическая информация приложения

    • кривая direct — отображает изменение использования памяти прямого доступа (Direct Memory)

    • кривая mapped — отображает соотношение памяти и процесса в реальном времени

    • кривая mapped - 'non-volatile memory' — отображает использование энергозависимой памяти

    График Утилизация областей памяти ('monitoring') используется для комплексной оценки работы системы
  4. график Время затраченное на сбор мусора ('monitoring'), с показывает время, затраченное на сбор мусора в реальном времени, на следующих кривых:

    График Время затраченное на сбор мусора ('monitoring')
    • кривая G1 Old Generation — отображает время, затраченное на сбор мусора G1 Old Generation

    • кривая G1 Young Generation — отображает время, затраченное на сбор мусора G1 Young Generation

    График Время затраченное на сбор мусора ('monitoring') используется для комплексной оценки работы системы. При корректной работе системы кривые на графике должны расти медленно и равномерно
  5. график Утилизация областей памяти ('voip-signalling-gateway'), МБ показывает утилизацию памяти в реальном времени на следующих кривых:

    График Утилизация областей памяти ('voip-signalling-gateway')
    • кривая CodeHeap 'non-nmethods' — отображает утилизацию памяти внутреннего кода

    • кривая CodeHeap 'non-profiled nmethods' — отображает утилизацию памяти непрофилированного кода

    • кривая CodeHeap 'profiled nmethods' — отображает утилизацию памяти профилированного кода

    • кривая Compressed Class Space — отображает утилизацию памяти, где хранится информация о загруженных классах

    • кривая G1 Eden Space — отображает утилизацию памяти, где хранятся все созданные в программе объекты

    • кривая G1 Old Gen — отображает утилизацию памяти, которая занята долгоживущими объектами

      Рекомендуется выполнять мониторинг значений G1 Old Gen
    • кривая G1 Survivol Space — отображает утилизацию памяти, где хранятся объекты из Par Eden Space (признаны долгоживущими)

    • кривая Metaspace — отображает утилизацию памяти, где хранится статическая информация приложения

    • кривая direct — отображает изменение использования памяти прямого доступа (Direct Memory)

    • кривая mapped — отображает соотношение памяти и процесса в реальном времени

    • кривая mapped - 'non-volatile memory' — отображает использование энергозависимой памяти

    График Утилизация областей памяти ('voip-signalling-gateway') используется для комплексной оценки работы системы
  6. график Время затраченное на сбор мусора ('voip-signalling-gateway'), с показывает время, затраченное на сбор мусора в реальном времени, на следующих кривых:

    График Время затраченное на сбор мусора ('voip-signalling-gateway')
    • кривая G1 Old Generation — отображает время, затраченное на сбор мусора G1 Old Generation

    • кривая G1 Young Generation — отображает время, затраченное на сбор мусора G1 Young Generation

    График Время затраченное на сбор мусора ('voip-signalling-gateway') используется для комплексной NOTE: оценки работы системы. При корректной работе системы кривые на графике должны расти медленно и равномерно
  7. график Утилизация областей памяти ('registry'), Мб показывает время, затраченное на сбор мусора в реальном времени, на следующих кривых:

    График Утилизация областей памяти ('registry')
    • кривая CodeHeap 'non-nmethods' — отображает утилизацию памяти внутреннего кода

    • кривая CodeHeap 'non-profiled nmethods' — отображает утилизацию памяти непрофилированного кода

    • кривая CodeHeap 'profiled nmethods' — отображает утилизацию памяти профилированного кода

    • кривая Compressed Class Space — отображает утилизацию памяти, где хранится информация о загруженных классах

    • кривая G1 Eden Space — отображает утилизацию памяти, где хранятся все созданные в программе объекты

    • кривая G1 Old Gen — отображает утилизацию памяти, которая занята долгоживущими объектами

      Рекомендуется выполнять мониторинг значений G1 Old Gen
    • кривая G1 Survivol Space — отображает утилизацию памяти, где хранятся объекты из Par Eden Space (признаны долгоживущими)

    • кривая Metaspace — отображает утилизацию памяти, где хранится статическая информация приложения

    • кривая direct — отображает изменение использования памяти прямого доступа (Direct Memory)

    • кривая mapped — отображает соотношение памяти и процесса в реальном времени

    • кривая mapped — 'non-volatile memory' — отображает использование энергозависимой памяти

    График Утилизация областей памяти ('registry') используется для комплексной оценки работы системы
  8. график Время затраченное на сбор мусора ('registry'), с время, затраченное на сбор мусора в реальном времени, на следующих кривых:

    График Время затраченное на сбор мусора ('registry')
    • кривая G1 Old Generation — отображает время, затраченное на сбор мусора G1 Old Generation

    • кривая G1 Young Generation — отображает время, затраченное на сбор мусора G1 Young Generation

    График Время затраченное на сбор мусора ('registry') используется для комплексной оценки работы системы. При корректной работе системы кривые на графике должны расти медленно и равномерно
  9. график Загруженные классы показывает количество классов, загруженных модулем в реальном времени, на кривых <Название модуля>

    График Загруженные классы
    График Загруженные классы используется для комплексной оценки работы системы и предназначен для поставщика IVA SBC

Мониторинг G1 Old Gen

Чтобы избежать снижения производительности и аварийной остановки модуля, важно отслеживать метрики G1 Old Gen на графиках утилизации областей памяти.

Пороговое значение для области памяти G1 Old Gen высчитывается по формуле:

Ограничение использования памяти модулем × 80 %

Примеры пороговых значений G1 Old Gen:

Имя модуля Ограничение использования
памяти, МБ
Пороговое значение
G1 Old Gen, МБ

sbc

512

409

sbc-cfg-server

256

204

monitoring

64

51

voip-signalling-gateway

256

204

registry

256

204

Превышение данного порога в течение более 2 минут подряд означает, что модуль испытывает высокую нагрузку. Это приводит к снижению его производительности и повышению риска аварийной остановки модуля.

Вкладка Внутренности

На вкладке Внутренности для сервера проксирования (sbc) и сервера управления и конфигурации (sbc-cfg-server) отображаются следующие графики:

  1. график Паузы монотонного таймера, с (для sbc / sbc-cfg-server) показывает паузы монотонного таймера в каждом из модулей <Название модуля>. Расчет осуществляется как разница между временем, когда модуль получает управление от сервера, и ожидаемым временем его получения

    График Паузы монотонного таймера
    При корректной работе системы Паузы монотонного таймера не должны превышать 20 мс. Превышение значения может свидетельствовать о перегрузке системы, замирании виртуальной машины или других проблемах
  2. график Паузы не монотонного таймера, с (для sbc / sbc-cfg-server) показывает паузы не монотонного таймера перед запуском служб в модуле в реальном времени на кривых <Название модуля>

    График Паузы не монотонного таймера
    График Паузы не монотонного таймера используется для комплексной оценки работы системы
  3. график Срабатывания Fail2ban (для sbc / sbc-cfg-server) показывает срабатывания Fail2ban в реальном времени на следующих кривых:

    График Срабатывания Fail2ban
    • кривая {jail="sgw-01"} — отображает количество срабатываний блокировки Fail2ban по числу SIP- / H.323-регистраций с одного IP-адреса

    • кривая {jail="sgw-02"} — отображает количество срабатываний блокировки Fail2ban по числу звонков с одного IP-адреса

    • кривая {jail="sgw-03"} — отображает количество срабатываний блокировки Fail2ban по числу коротких (небольшие по длительности) вызовов с одного IP-адреса

    • кривая {jail="sgw-04"} — отображает количество срабатываний блокировки Fail2ban по числу невалидных SIP- / H.323-пакетов VVoIP-сигнализации с одного IP-адреса

    • кривая {jail="sshd"} — отображает количество срабатываний блокировки Fail2ban по числу неправильного ввода пароля для доступа по SSH с одного IP-адреса

    Сильный рост количества срабатываний Fail2ban может означать наличие DoS-атак по соответствующему протоколу
  4. график Количество IP заблокированных Fail2ban (для sbc / sbc-cfg-server) показывает количество IP-адресов, заблокированных Fail2ban в реальном времени на следующих кривых:

    График Количество IP заблокированных Fail2ban
    • кривая {jail="sgw-01"} — отображает количество IP-адресов, заблокированных Fail2ban по числу SIP- / H.323-регистраций с одного IP-адреса

    • кривая {jail="sgw-02"} — отображает количество IP-адресов, заблокированных Fail2ban по числу звонков с одного IP-адреса

    • кривая {jail="sgw-03"} — отображает количество IP-адресов, заблокированных Fail2ban по количеству коротких (небольшие по длительности) вызовов с одного IP-адреса

    • кривая {jail="sgw-04"} — отображает количество IP-адресов, заблокированных Fail2ban по количеству невалидных SIP- / H.323-пакетов VVoIP-сигнализации с одного IP-адреса

    • кривая {jail="sshd"} — отображает количество IP-адресов, заблокированных Fail2ban по причине неправильного ввода пароля для доступа по SSH с одного IP-адреса

    Рост количества IP-адресов, заблокированных Fail2ban, может говорить о наличии DoS-атаки по соответствующему протоколу
  5. график Размер баз данных, МБ (для sbc-cfg-server) показывает количество памяти, выделенное в базе данных для различных частей в реальном времени на кривых <Название базы данных>

    График Размер баз данных
    Размер баз данных зависит от времени хранения логов в системе.
    Рост размера баз данных может говорить о DDoS-атаке или о необходимости уменьшения времени хранения истории аудита и событий
  6. график Подключения к базе данных (для sbc-cfg-server) показывает количество подключений к базам данных и их статус в реальном времени на кривых <Название базы данных и статус подключения>

    Статус подключения может иметь следующие значения:

    • active — активно выполняющийся запрос

    • idle in transaction — началась транзакция в БД, но еще не произошел commit в данной транзакции

    • unknown — состояние подключения не определено

    График Подключения к базе данных

    График Подключения к базе данных используется для комплексной оценки работы системы.

    При корректной работе системы в состоянии active и idle in transaction должно быть не более 5 запросов (в коротком промежутке времени).

    Постоянное число подключений более 5 и их рост означает наличие проблем с БД или с ростом нагрузки на систему
  7. график Взаимные блокировки (для sbc-cfg-server) показывает количество взаимных блокировок в реальном времени на кривых <Название базы данных>

    График Взаимные блокировки
    Для корректной работы системы необходимо отсутствие взаимных блокировок
  8. график Задержка репликации, байты (для sbc-cfg-server) показывает количество байт задержки репликации в реальном времени

    В текущей версии IVA SBC данная метрика не используется

Вкладка Лицензии

На вкладке Лицензии для сервера управления и конфигурации можно посмотреть текущее количество активных соединений в IVA SBC:

  1. график VVoIP соединения показывает:

    • текущее количество VVoIP-соединений на каждом сервере проксирования

    • текущий лимит VVoIP-соединений по лицензии

    График VVoIP соединения
  2. график TURN соединения показывает:

    • текущее количество TURN-соединений на каждом сервере проксирования

    • текущий лимит TURN-соединений по лицензии

      График TURN соединения
    Текущее количество соединений не должно превышать лицензионный лимит

Вкладка HTTP

На вкладке HTTP для сервера проксирования отображаются следующие графики:

  1. график Запросы в секунду к HTTP reverse proxy серверу показывает количество запросов в секунду к внутреннему HTTP-серверу в реальном времени на кривой rps{port=”443”}

    График Запросы в секунду к HTTP reverse proxy серверу

    График Запросы в секунду к HTTP reverse proxy серверу используется для комплексной оценки работы системы.

    Оценка проводится по той нагрузке, которая свойственна для системы (с учётом наличия больших конференций и плановой нагрузки на систему).

    Большое количество запросов может сигнализировать о DDoS-атаке на сервер
  2. график Количество активных запросов к HTTP reverse proxy серверу показывает количество активных запросов к внутреннему HTTP-серверу в реальном времени на кривой active_requests{port=”443”}

    График Количество активных запросов к HTTP reverse proxy серверу

    График Количество активных запросов к HTTP reverse proxy серверу используется для комплексной оценки работы системы.

    Оценка проводится по той нагрузке, которая свойственна для системы в соответствии с количеством пользователей сервера (обычно оценивается в ретроспективе в соответствии с историей использования).

    Если сервер получает большое количество запросов, это может указывать на DDoS-атаку, проведение масштабной конференции, или наличие проблем в работе внутреннего HTTP-сервера, который не справляется с обработкой запросов
  3. график Время обработки запросов HTTP reverse proxy показывает время обработки запросов к внутреннему HTTP-серверу в реальном времени на кривой rate{port=”443”}

    График Время обработки запросов HTTP reverse proxy
    Время обработки запросов к внутреннему HTTP-серверу должно быть не более 200 мс. Увеличение значения свыше 200 мс может свидетельствовать об ошибках на HTTP-сервере
  4. график Исходящий трафик HTTP reverse proxy сервера, кб/с показывает объём исходящего трафика от внутреннего HTTP-сервера в реальном времени на кривой kbps{port=”443”}

    График Исходящий трафик HTTP reverse proxy сервера
    График Исходящий трафик HTTP reverse proxy сервера используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Увеличение количества исходящего трафика может означать проведение масштабных конференций или выгрузку пользователями больших файлов (например запись мероприятия)
  5. график Статистика ответов HTTP reverse proxy сервера показывает статистику ответов от внутреннего HTTP-сервера в реальном времени на следующих кривых:

    График Статистика ответов HTTP reverse proxy сервера
    • кривые {code=”1xx”, port=”443”}, {code=”2xx”, port=”443”}, {code=”3xx”, port=”443”}, {code=”4xx”, port=”443”}, {code=”5xx”, port=”443”} — отображают количество различных кодов ответа обратного HTTP-прокси сервера

    Наличие большого количества ошибок 4хх или 5хх означает потенциально некорректную работу системы
  6. график Входящий трафик (Websocket) reverse proxy сервера, кб/с показывает трафик от клиентов к серверу через внутренней прокси сервер в реальном времени на кривой TX_kbps{port=”443”}

    График Входящий трафик (Websocket) reverse proxy сервера
    График Входящий трафик (Websocket) reverse proxy сервера используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Увеличение количества входящего трафика относительно обычного значения может означать проведение внеплановых конференций
  7. график Исходящий трафик (Websocket) reverse proxy сервера, кб/с показывает трафик от сервера к клиенту через внутренней прокси сервер в реальном времени на кривой RX_kbps{port=”443”}

    График Исходящий трафик (Websocket) reverse proxy сервера
    График Исходящий трафик (Websocket) reverse proxy сервера используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Увеличение количества исходящего трафика относительно обычного значения может означать проведение внеплановых конференций

Вкладка VVoIP

На вкладке VVoIP для сервера проксирования отображаются следующие графики:

  1. график Размеры SIP таблиц в SGW показывает размеры SIP-таблиц в реальном времени на следующих кривых:

    График Размеры SIP таблиц в SGW
    • кривая Client TXs — отображает число SIP-транзакций от клиента к серверу

    • кривая Dialogs — отображает текущие активные SIP-диалоги

    • кривая Early dialogs — отображает текущие активные SIP-диалоги

    • кривая Server TXs — отображает число SIP-транзакций от сервера к клиенту

    Значение Dialogs зависит от ретроспективы в соответствии с историей использования.
    Рост числа активных диалогов может означать DDoS-атаку по протоколу SIP
  2. график SGW вызовы показывает количество SGW-вызовов в зависимости от протокола в реальном времени на следующих кривых:

    График SGW вызовы
    • кривая B2B calls — отображает количество полностью активных звонков (установлено соединение между внешним и внутренним контуром)

    • кривая H.323 legs — отображает количество активных звонков между сервером и клиентами по протоколу H.323 (полностью установленный звонок между внешним и внутренним контуром требует двух активных звонков между сервером и клиентами)

    • кривая MSSIP legs — отображает количество активных звонков между сервером и клиентами по протоколу MSSIP

    • кривая SIP legs — отображает количество активных звонков между сервером и клиентами по протоколу SIP

    График SGW вызовы используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Увеличение количества активных звонков может означать DDoS-атаку по соответствующему протоколу
  3. график SGW вызовы в секунду показывает количество обрабатываемых или инициируемых gateway SGW-вызовов в течение одной секунды в зависимости от протокола в реальном времени на следующих кривых:

    График SGW вызовы в секунду
    • кривая B2B calls — отображает количество полностью активных вызовов в течении одной секунды

    • кривая SIP — отображает количество SIP-вызовов в течении одной секунды

    График SGW вызовы в секунду используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования)
    Увеличение количества активных звонков может означать DDoS-атаку по соответствующему протоколу
  4. график Число SIP регистраций по доменам показывает количество SIP-регистраций по доменам в реальном на кривых <Название / IP-адрес домена>

    График Число SIP регистраций по доменам
    График Число SIP регистраций по доменам используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Увеличение числа активных SIP-регистраций может означать DDoS-атаку по соответствующему протоколу (если их значительно больше, чем ожидается) и потенциальную утечку данных учётных записей пользователей
  5. график Статистика ошибок показывает статистику ошибок VVoIP-проксирования в реальном времени. Ошибки сгруппированы по кодам ответа и показаны на следующих кривых:

    График Число SIP регистраций по доменам
    • license_limit_reached — превышен лимит VVoIP-соединений по лицензии

    • forbidden_no_rule — не найдено правило обработки звонка

    • rejected_by_rule — правило запрещает входящий звонок

    • dropped_by_rule — правило сбрасывает входящий звонок

    • register_failed_no_rule — не найдено правило обработки SIP- / H.323-регистрации

    • register_denied_by_ip — SIP- / H.323-регистрация для данного IP-адреса запрещена

    • malformed_message — SIP- / H.323-сообщение повреждено или имеет некорректную структуру

    • handling_error — непредвиденная ошибка обработки сообщения

    • invalid_message — неверный формат SIP- / H.323-сообщения

    • no_online_destination — звонок некуда проксировать: все указанные в настройках серверы недоступны

    • no_dispatcher_found — внутренняя ошибка при попытке проксировать звонок

    • max_calls_limit_reached — превышено ограничение на максимальное число активных звонков

    • total — общее количество ошибок

Вкладка TURN-сервер

На вкладке TURN-сервер для сервера проксирования отображаются следующие графики:

  1. график Активные соединения показывает количество активных TURN-соединений в реальном времени на кривой turn_connections

    График Активные соединения
    График Активные соединения используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Число TURN-соединений не должно превышать удвоенное число участников в рамках WebRTC-конференций
  2. график Объём входящего трафика, Кб показывает объём входящего трафика от TURN-сервера в реальном времени на кривых all, <IP-адрес сервера>

    График Объём входящего трафика
    График Объём входящего трафика используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Объём входящего трафика при корректной работе не должен быть больше, чем число пользователей в WebRTC конференциях, умноженное на 1 Мбит/c
  3. график Объём исходящего трафика, Кб показывает объём исходящего трафика от TURN-сервера в реальном времени на кривых all, <IP-адрес сервера>

    График Объём исходящего трафика
    График Объём исходящего трафика используется для комплексной оценки работы системы (обычное значение зависит от ретроспективы в соответствии с историей использования).
    Объём исходящего трафика при корректной работе не должен быть больше, чем число пользователей в WebRTC конференциях, умноженное на 2 Мбит/c
  4. график Статистика ошибок показывает статистику ошибок на TURN-сервере в реальном времени. Ошибки сгруппированы по кодам ответа и показаны на следующих кривых:

    • 401_invalid_credentials — неверные учётные данные

    • 403_access_denied — доступ запрещён

    • 430_expired_credentials — просроченные учётные данные

    • 508_limit_reached — достигнут лимит ресурсов

    • total — общее количество ошибок

    График Статистика ошибок

Вкладка FLV

На вкладке FLV для сервера проксирования можно посмотреть графики:

  1. график RTMP потоки показывает:

    • кривая RTMP Streams — количество активных RTMP-потоков, которые сервер проксирования забирает с внешнего RTMP-сервера

    График RTMP потоки
  2. график HTTP FLV подписчики показывает:

    • кривая HTTP FLV subscribers — количество клиентов, получающих FLV-данные по протоколу HTTP

    HTTP FLV подписчики
  3. график Число отключений медленных HTTP FLV подписчиков в секунду показывает:

    • кривая HTTP FLV subscribers drop — сколько подписчиков в секунду отключается из-за недостаточной скорости подключения

    График Число отключений медленных HTTP FLV подписчиков в секунду