Обработчик стенограмм

Раздел Обработчик стенограмм содержит параметры конфигурации модуля офлайн-транскрибации, включая настройки хранения данных, управления вычислительными ресурсами (CPU / GPU), работы нейросетевых моделей и интеграции с сервисами ADP для автоматического извлечения поручений и генерации сводок.

Конфигурация включает:

настройки путей хранения данных, аудиофрагментов и стенограмм
параметры работы с нейросетевыми моделями и вычислительными ресурсами
настройки обработки аудио (пороги обнаружения речи, объединение фрагментов)
параметры интеграции с сервисами ADP (протоколирование и суммаризация)

Параметры для настройки обработчика стенограмм

Параметр	Значение по умолчанию	Назначение
Уровень отладочных сообщений	INFO	минимальный уровень отладочных сообщений (возможные значения: CRITICAL, ERROR, WARNING, INFO, DEBUG)
Уникальное имя обработчика	FIRST	уникальное имя обработчика стенограмм
Путь к файлу сообщений	/var/log/terra/{WORKER_TYPE}. {LOG_WORKER_NAME}. application.log	монтирование каталога для хранения лог-файлов
Максимальный размер одного файла сообщений (байты)	10 000 000	максимальный размер одного лог-файла, в байтах
Максимальное количество файлов сообщений	10	максимальное количество хранимых лог-файлов одного контейнера
Использовать устройство CPU вместо GPU	off	переход в режим работы на CPU вместо GPU
Индекс используемого CUDA устройства внутри контейнера	0	индекс CUDA-устройства
Строка запроса при инициализации нейросети	<пусто>	текст запроса для инициализации нейросети
Количество используемых ядер CPU	8	количество ядер процессора, используемых для исполнения нейросети на CPU (при активном параметре Использовать устройство CPU вместо GPU)
Используемый тип структуры CUDA для развертывания модели	float16	тип данных, используемый при загрузке модели нейросети (возможные значения: int8, float16, float32, float64)
Максимальная длина текста спикера в одной строке стенограммы (символы)	1000	максимальное количество символов в одной строке стенограммы
Размер пакета посылки в нейросеть	8	размер пакета сообщений в одной посылке к нейросети
Обнаруживать язык речи в звуке	off	режим обнаружения оригинального языка звука (игнорируется опция Код используемого языка)
Использовать выравниватель длительности текста при обработке звука	on	использование выравнивателя текста по времени. Отключение выравнивателя приводит к двухкратному ускорению обработки, но вся речь каждого спикера объединяется в один временной сегмент. Значение off рекомендуется выставлять только для многочасовых лекций с участием одного спикера
Использовать быструю модель	on	использование более быстрой, но менее точной, версии нейросетевой модели
Показывать текст на оригинальном языке	off	отображение распознанного текста в стенограмме на оригинальном языке речи
Порог включения обнаружения голоса в звуке	0,4	значение минимального порога наличия речи в звуке, при которой звук будет использован в обработке
Порог выключения обнаружения голоса в звуке	0,25	значение максимального порога наличия речи в звуке, при меньшем значении звук не будет использован в обработке
Максимальная длительность обработки онлайн запроса	0,5	длительность ожидания ответа от онлайн-обработчика (секунды)
Путь к файлу шаблонов исключаемых фраз	/var/www/alldata/ cleaning_patterns.txt	путь к файлу в контейнере, содержащему регулярные выражения для текста, исключаемого из стенограммы
Добавлять тишину между аудиофрагментами	on	использование сэмпла тишины для разделения речи разных спикеров (не допускает слияния речи разных спикеров)
Объединять аудиофрагменты по спикеру	on	режим объединения аудиофрагментов по спикеру. При включении опции распознанный текст будет точно соотнесен со спикером, но может быть нарушен временной порядок событий (ответ на вопрос будет раньше самого вопроса). При отключении опции объединение будет происходить по времени поставки аудиофрагментов — порядок фраз будет соответствовать реальному, но фраза может быть назначена другому спикеру.
Доступность ADP сервисов	off	использование ADP-службы: planner — извлечение списка поручений (протоколирование) summary — генерация краткой аннотации (суммаризация) diar_identification — распознавание реальных имен участников на основе контекстного анализа диалога Значение по умолчанию зависит от режима развертывания IVA Terra: off — для режима Offline и No-ADP on — для режима Full и STS
URL размещения ADP клиента	http://terra_adp_client:8080/ extend_minutes	адрес endpoint, принимающего заказ на обогащение стенограммы результатами, возвращаемыми от модуля ADP
Принудительно обрабатывать стенограмму ADP сервисами	on	принуждение для повторной обработки стенограммы сервисами ADP, даже если результаты обработки уже есть в стенограмме

Параметр

Значение по умолчанию

Назначение

Уровень отладочных сообщений

INFO

минимальный уровень отладочных сообщений (возможные значения: CRITICAL, ERROR, WARNING, INFO, DEBUG)

Уникальное имя обработчика

FIRST

уникальное имя обработчика стенограмм

Путь к файлу сообщений

/var/log/terra/{WORKER_TYPE}.
{LOG_WORKER_NAME}.
application.log

монтирование каталога для хранения лог-файлов

Максимальный размер одного файла сообщений (байты)

10 000 000

максимальный размер одного лог-файла, в байтах

Максимальное количество файлов сообщений

максимальное количество хранимых лог-файлов одного контейнера

Использовать устройство CPU вместо GPU

off

переход в режим работы на CPU вместо GPU

Индекс используемого CUDA устройства внутри контейнера

индекс CUDA-устройства

Строка запроса при инициализации нейросети

<пусто>

текст запроса для инициализации нейросети

Количество используемых ядер CPU

количество ядер процессора, используемых для исполнения нейросети на CPU (при активном параметре Использовать устройство CPU вместо GPU)

Используемый тип структуры CUDA для развертывания модели

float16

тип данных, используемый при загрузке модели нейросети (возможные значения: int8, float16, float32, float64)

Максимальная длина текста спикера в одной строке стенограммы (символы)

1000

максимальное количество символов в одной строке стенограммы

Размер пакета посылки в нейросеть

размер пакета сообщений в одной посылке к нейросети

Обнаруживать язык речи в звуке

off

режим обнаружения оригинального языка звука (игнорируется опция Код используемого языка)

Использовать выравниватель длительности текста при обработке звука

использование выравнивателя текста по времени. Отключение выравнивателя приводит к двухкратному ускорению обработки, но вся речь каждого спикера объединяется в один временной сегмент. Значение off рекомендуется выставлять только для многочасовых лекций с участием одного спикера

Использовать быструю модель

использование более быстрой, но менее точной, версии нейросетевой модели

Показывать текст на оригинальном языке

off

отображение распознанного текста в стенограмме на оригинальном языке речи

Порог включения обнаружения голоса в звуке

0,4

значение минимального порога наличия речи в звуке, при которой звук будет использован в обработке

Порог выключения обнаружения голоса в звуке

0,25

значение максимального порога наличия речи в звуке, при меньшем значении звук не будет использован в обработке

Максимальная длительность обработки онлайн запроса

0,5

длительность ожидания ответа от онлайн-обработчика (секунды)

Путь к файлу шаблонов исключаемых фраз

/var/www/alldata/
cleaning_patterns.txt

путь к файлу в контейнере, содержащему регулярные выражения для текста, исключаемого из стенограммы

Добавлять тишину между аудиофрагментами

использование сэмпла тишины для разделения речи разных спикеров (не допускает слияния речи разных спикеров)

Объединять аудиофрагменты по спикеру

режим объединения аудиофрагментов по спикеру.
При включении опции распознанный текст будет точно соотнесен со спикером, но может быть нарушен временной порядок событий (ответ на вопрос будет раньше самого вопроса).
При отключении опции объединение будет происходить по времени поставки аудиофрагментов — порядок фраз будет соответствовать реальному, но фраза может быть назначена другому спикеру.

Доступность ADP сервисов

off

использование ADP-службы:

planner — извлечение списка поручений (протоколирование)
summary — генерация краткой аннотации (суммаризация)
diar_identification — распознавание реальных имен участников на основе контекстного анализа диалога

Значение по умолчанию зависит от режима развертывания IVA Terra:

off — для режима Offline и No-ADP
on — для режима Full и STS

URL размещения ADP клиента

http://terra_adp_client:8080/
extend_minutes

адрес endpoint, принимающего заказ на обогащение стенограммы результатами, возвращаемыми от модуля ADP

Принудительно обрабатывать стенограмму ADP сервисами

принуждение для повторной обработки стенограммы сервисами ADP, даже если результаты обработки уже есть в стенограмме

Активация параметра Показывать текст на оригинальном языке рекомендуется для мероприятий, проводимых на нескольких языках. При одновременном использовании параметра Показывать текст на оригинальном языке с опцией Использовать быструю модель возможны ошибки транскрибации иностранной речи.

Для повышения точности распознавания иностранной речи рекомендуется отключать опцию Использовать быструю модель

Для корректной работы сервисов модуля ADP в режиме Full необходимо:

активировать переключатель Доступность ADP сервисов для каждого обработчика стенограмм
настроить подключение к ADP-сервису:
- Настройки → Клиент ADP-сервиса → указать корректные параметры Адрес приема запросов и Адрес получения ответов
- Настройки → Клиент ADP-сервиса → настроить параметры аутентификации Имя агента и Токен доступа к ADP сервису