Сведения о производительности

В данном разделе представлены сведения о производительности IVA Terra:

скорость обработки аудиоконтента для различных моделей графических карт (GPU)
коэффициенты для расчета онлайн- и офлайн-транскрибации
результаты оптимизации потребления видеопамяти (VRAM)
влияние режимов обработки голосов на время обработки аудиозаписей мероприятий

Производительность в зависимости от GPU

IVA Terra поддерживает различные графические процессоры (GPU) для выполнения задач транскрибации. Каждый тип GPU имеет свои характеристики производительности, которые влияют на скорость обработки аудиофрагментов.

Характеристики GPU для транскрибации:

Графический процессор	Количество GPU	Память, ГБ	Время обработки 1 часа аудиоконтента, с
NVIDIA RTX-4090	1	24	33
NVIDIA A16	4	4×16	180
NVIDIA A10	1	24	85

Расчет для онлайн- и офлайн-транскрибации

Для расчета возможностей транскрибации в режимах онлайн и офлайн можно использовать следующие коэффициенты для GPU:

Графический процессор

Количество GPU

Онлайн-транскрибация

Офлайн-транскрибация

Коэффициент

Кол-во мероприятий в режиме субтитров

Коэффициент

Кол-во мероприятий в режиме субтитров

NVIDIA RTX-4090

1:30

1:60

NVIDIA A16

1:20

1:30

NVIDIA A10

1:15

1:30

Выбор графической карты и правильная настройка количества обработчиков являются ключевыми факторами для оптимизации скорости обработки аудиофрагментов в системе IVA Terra.

Рекомендуется учитывать характеристики каждой карты и их возможности при планировании использования системы для онлайн- / офлайн-транскрибации.

Оптимизация использования видеопамяти (VRAM)

Улучшена производительность системы, начиная с версии IVA Terra 4.0, за счет снижения потребления VRAM в модулях обработки стенограмм и субтитров при использовании быстрой / медленной нейросетевой модели:

Сервис	Тип модели	Прежнее значение	Текущее значение	Экономия
Обработчик стенограмм	Быстрая	8 ГБ	≤ 5 ГБ	3 ГБ
Медленная	12 ГБ	≤ 8 ГБ	4 ГБ
Обработчик субтитров	Быстрая	5 ГБ	≤ 2,5 ГБ	2,5 ГБ
Медленная	8 ГБ	≤ 5 ГБ	3 ГБ

Сервис

Тип модели

Прежнее значение

Текущее значение

Экономия

Обработчик стенограмм

Быстрая

8 ГБ

≤ 5 ГБ

3 ГБ

Медленная

12 ГБ

≤ 8 ГБ

4 ГБ

Обработчик субтитров

Быстрая

5 ГБ

≤ 2,5 ГБ

2,5 ГБ

Медленная

8 ГБ

≤ 5 ГБ

3 ГБ

Результат: снижение потребления VRAM от 2.5 до 4 ГБ на контейнер в зависимости от сервиса обработки и нейросетевой модели

Выбор типа модели управляется опцией Использовать быструю модель в настройках соответствующего сервиса: Настройки → Обработчик стенограмм / Обработчик субтитров

Производительность режимов обработки голосов

Время обработки аудиозаписи мероприятия при использовании функции Распознавание голосов может увеличиться в зависимости от выбранного режима обработки голосов:

Режим	Множитель	Увеличение времени обработки	Результат
Транскрибация	×1	0 %	стенограмма
Распознавание голосов	×2	+100 %	метки спикеров (voice_N)
Полный цикл: транскрибация и распознавание голосов	×3	+200 %	стенограмма с метками спикеров (voice_N)

Режим

Множитель

Увеличение времени обработки

Результат

Транскрибация

×1

0 %

стенограмма

Распознавание голосов

×2

+100 %

метки спикеров (voice_N)

Полный цикл: транскрибация и распознавание голосов

×3

+200 %

стенограмма с метками спикеров (voice_N)

Результат: время обработки одного часа аудиоконтента при включенном полном цикле распознавания голосов может увеличиться до 3 раз по сравнению со стандартной процедурой формирования транскрибации, в связи с тем, что процесс распознавания голосов требует времени в 2 раза больше, чем суммарное время преобразования речи в текст и разметки текста

Множители производительности при использовании функции Назначение имён для подстановки реальных имен спикерам (например, voice_N → Иванов Иван) не увеличиваются, поскольку идентификация выполняется на этапе анализа уже сформированной стенограммы и не требует дополнительных вычислительных ресурсов на обработку аудиоконтента.

Управление режимами обработки голосов осуществляется в веб-панели администрирования: Настройки → Общие настройки → Распознавание голосов / Назначение имён