Сетевой помехоподавляющий фильтр фсп 1ф 10а: STT — ФСП-1Ф-10А

Фильтр сетевой помехоподавляющий ФСП-1Ф-10А | ФГБУ «ВНИИР»

Фильтр ФСП-1Ф-10А предназначен для защиты радиоэлектронных устройств и средств вычислительной техники от утечки информации по цепям заземления и электропитания напряжением 220В 50 Гц или постоянного тока до 220В, а также защиты их от импульсных и в.ч. помех. Выполнен 3-проводным. Фильтруемый рабочий ток до 10А. Обеспечивает защиту от всплесков напряжения в сети. Выполняется по категории УХЛ4.2 ГОСТ15150-69 для встраивания в изделия или системы потребителя.Выпускается в нескольких модификациях:

Предприятие:

Тип продукции:

Основные параметры и эксплуатационные характеристики: 

ТЕХНИЧЕСКИЕ  ХАРАКТЕРИСТИКИ                                                                                                                    ФСП-1Ф-10А           1.    Максимальный рабочий ток                                                               10А                                                                          2. Вносимое затухание сигнала в в диапазоне частот, не менее                                                                                        0,15 – 0,6 МГц                                     60 дБ                                                                                    0,6 — 4 МГц                                         75 дБ                                                                                      4  —  1000 МГц                                  75 дБ                                                                                1000  —  2000 МГц                                  60 дБ                          3.    Падение напряжения на проводах фильтра       при мах. рабочем токе, не более                                                          0,3 В                           4.    Реактивный ток утечки на корпус, не более                                       40 мА                          5.    Уровень подавления сетевых импульсных помех                               390 В                           6.     Габаритные размеры корпуса, мм                                                   164х70х56                   7.    Масса, кг, не более                                                                                  0,8                               8.Класс электрозащиты по  ГОСТ 12.2.007.0-75                                1                                     При параллельном включении фильтров их соответствующие характеристики суммируются. 

Предприятие разработчик: 

ЗАО «ПРИБОРОСТРОИТЕЛЬ»

Предприятие изготовитель: 

ЗАО «ПРИБОРОСТРОИТЕЛЬ»

Предприятие калькодержатель: 

ЗАО «ПРИБОРОСТРОИТЕЛЬ»

Год разработки: 

Год постановки в производство: 

Производственные возможности: 

3000 шт/год

Потребители: 

МО РФ;
ФСБ;
ФСО;
УНТО ФСО;
АО «Калугаприбор»

Минимальная партия заказа: 

от 1 шт.

Срок изготовления: 

60 календарных дней

Условия оплаты: 

100% предоплата

Варианты отгрузки продукции: 

доставка курьером до дверей офиса

Информация по заказу: 

Заявку на приобретение ФСП-1Ф-10А Вы можете направить одним из следующих способов:
— по факсу +7(81378) 21-475;
— отправить по E-mail: oss. [email protected];
— по телефонам: +7(81378) 23-146, мобильный +7(921)776-88-23;
— в адрес завода-изготовителя: 188800, г. Выборг, ул. Данилова 15, ЗАО «ПРИБОРОСТРОИТЕЛЬ»

Децимальный № ТУ: 

КЛУФ.431149.006

Присутствует в Перечне ЭКБ: 

Цена: 

23 010.00р.

Фильтр сетевой помехоподавляющий ФСП-1Ф-10А

  • Описание

Фильтр ФСП-1Ф-10А сертифицирован комиссией ФСТЭК РФ как средство защиты информации, сертификат №1169 от 18 апреля 2006 года, продлен до 18 апреля 2018г.
Фильтр ФСП-1Ф-10А предназначен для защиты радиоэлектронных устройств и средств вычислительной техники от утечки информации по цепям заземления и электропитания напряжением 220В 50 Гц или постоянного тока до 220В, а также защиты их от импульсных и в.ч. помех. Выполнен 3-проводным. Фильтруемый рабочий ток до 10А. Обеспечивает защиту от всплесков напряжения в сети. Выполняется по категории УХЛ4. 2 ГОСТ15150-69 для встраивания в изделия или системы потребителя.
Выпускается в нескольких модификациях: ФСП-1Ф-10А –    базовая модель,
ФСП-1Ф-10А-1,5 – с уменьшенным реактивным током утечки,
ФСП-1Ф-10А-З – с дополнительной защитой от повышенных климатических и механических воздействий,
ФСП-1Ф-10А-У – в комплекте с распределительной колодкой на 4 евророзетки с удлинительным кабелем L2 длиной 3м и сетевым кабелем L1 длиной 1,5 м с евровилкой, по схеме:

Длины L1 и L2 могут изменяться по требованию заказчика.

ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ                                                                                                                                                                                                                                                             ФСП-1Ф-10А         ФСП-1Ф-10А-1,5        1. Максимальный рабочий ток                                                     10А                           10А

  1. Вносимое затухание сигнала в в диапазоне частот, не менее

                                                                            0,15 – 0,6 МГц        60 дБ                          40 дБ                                                                             0,6 — 4 МГц           75 дБ                          60 дБ                                                                            4 — 1000 МГц         75 дБ                          75 дБ                                                                           1000 — 2000 МГц     60 дБ                          60 дБ 3. Падение напряжения на проводах фильтра                                                      при мах. рабочем токе, не более    0,3 В                        0,3 В 4. Реактивный ток утечки на корпус, не более                                    40 мА                      1,5 мА 5. Уровень подавления сетевых импульсных помех                             390 В                       390 В 6. Габаритные размеры корпуса, мм                                          164х70х56                   164х70х56

  1. Масса, кг, не более                                                                0,8                               0,8
  2. Класс электрозащиты по ГОСТ 12.2.007.0-75 1 1

При параллельном включении фильтров их соответствующие характеристики суммируются.
Обозначение при заказе: Фильтр сетевой ФСП-1Ф-10А (ФСП-1Ф-10А-1,5; ФСП-1Ф-10А-З; ФСП-1Ф-10А-У) КЛУФ.431149.006 ТУ.

Категория: Информационная безопасность

Оптимизация Siri на HomePod в настройках дальнего поля

Типичная звуковая среда для HomePod имеет множество проблем — эхо, реверберацию и шум. В отличие от Siri на iPhone, которая работает близко ко рту пользователя, Siri на HomePod должна хорошо работать в дальней зоне. Пользователи хотят вызывать Siri из разных мест, например, с дивана или кухни, независимо от того, где находится HomePod. Полная онлайн-система, которая решает все экологические проблемы, с которыми может столкнуться HomePod, требует тесной интеграции различных технологий многоканальной обработки сигналов. Соответственно, команды Audio Software Engineering и Siri Speech создали систему, которая объединяет модели глубокого обучения с учителем и алгоритмы онлайн-обучения без учителя, а также использует сигналы нескольких микрофонов. Система выбирает оптимальный аудиопоток для распознавателя речи, используя нисходящие знания от детекторов триггерных фраз «Привет, Siri». В этой статье мы обсудим методы машинного обучения, которые мы используем для онлайн-обработки сигналов, а также проблемы, с которыми мы столкнулись, и наши решения для достижения экологической и алгоритмической устойчивости при одновременном обеспечении энергоэффективности.

Введение

HomePod — это домашняя колонка с функциями умного дома, включая Siri в дальней зоне, которой пользователь может управлять с помощью речи даже во время воспроизведения музыки. Siri на HomePod предназначен для работы в сложных сценариях использования, таких как:

  • Во время громкого воспроизведения музыки
  • Когда собеседник находится далеко от HomePod
  • Когда другие источники звука в комнате, такие как телевизор или бытовая техника, активны

При всех этих условиях Siri на HomePod должна реагировать и правильно распознавать команды.

В этой статье описывается многоканальная система обработки сигналов HomePod с акцентом на следующие подходы:

  • Многоканальная фильтрация на основе масок с использованием глубокого обучения для удаления эха и фонового шума
  • Неконтролируемое обучение для разделения одновременных источников звука и выбора потока на основе триггерной фразы для устранения помех речи

Система использует шесть микрофонов и непрерывно выполняет многоканальную обработку сигналов на чипе Apple A8, в том числе, когда Homepod работает в режиме минимального энергопотребления для экономии энергии. Многоканальная фильтрация постоянно адаптируется к изменяющимся шумовым условиям и движущимся говорящим.

Другие современные системы используют многомикрофонную обработку для улучшения речи, но обычно фокусируются только на подмножестве проблем, таких как дереверберация [1] и подавление шума [2]. Чтобы подавить нежелательные компоненты сигнала, система улучшения речи должна изучить полезные и нежелательные характеристики сигнала, используя методы обучения с учителем или без учителя. В последнее время производительность улучшения речи значительно улучшилась благодаря глубокому обучению. В [2], например, самые эффективные методы изучают вероятность присутствия речи с помощью глубокой нейронной сети (DNN), которая управляет многоканальными фильтрами подавления шума. Тем не менее, эти системы обычно строятся, предполагая, что полная речь доступна во время выполнения и что система выполняет пакетную обработку, чтобы использовать все образцы речи во время голосовой команды [3]. Эта настройка увеличивает задержку и исключает улучшение речи для режимов постоянного прослушивания на устройствах домашнего помощника, включая определение триггерной фразы и функции конечной точки. Предположения, лежащие в основе систем пакетного улучшения речи, нереалистичны для HomePod, потому что акустические условия непредсказуемы, а начальная и конечная точки голосовых команд недоступны заранее.

Распознавание речи в дальней зоне усложняется, когда другой активный говорящий, например человек или телевизор, находится в одной комнате с целевым говорящим. В этом сценарии обнаружение речевого триггера, декодирование речи и конечная точка могут существенно ухудшиться, если голосовая команда не отделена от мешающих речевых компонентов. Традиционно исследователи занимаются разделением источников речи, используя либо неконтролируемые методы, такие как анализ независимых компонентов и кластеризация [4], либо глубокое обучение [5, 6]. Эти методы могут улучшить автоматическое распознавание речи в приложениях для конференц-связи или в пакетах синтетических речевых смесей, где каждый речевой сигнал извлекается и транскрибируется [6, 7]. К сожалению, возможности использования этих пакетных методов в интерфейсах дальнего действия, управляемых голосовыми командами, очень ограничены. Кроме того, влияние разделения источников на обнаружение голосовых триггеров, например, при использовании «Привет, Siri», ранее никогда не исследовалось. Наконец, крайне важно разделить смеси конкурирующих сигналов в дальней зоне в режиме онлайн, чтобы избежать задержек, а также выбрать и декодировать только целевой поток, содержащий голосовую команду.

Siri на HomePod: модель сигнала и обзор системы улучшения речи

Модель многоканального сигнала в дальней зоне может быть записана в частотной области как:

где:

  • n — индекс времени
  • k — индекс частоты
  • l , p – индексы времени импульсной характеристики
  • y k — это M — это сигналы микрофона, содержащие эхо, реверберацию, шум и конкурирующих говорящих
  • x k N x каналы сигналов воспроизведения
  • s k являются N s источники речи
  • v k компоненты фонового шума, захваченные M
  • H k – многоканальные импульсные характеристики от громкоговорителей к микрофонам, всего MN x отклик
  • G k — многоканальные импульсные отклики от источников речи на микрофоны, всего MN s отклики

Целью многоканальной системы обработки сигналов является выделение одного из источников речи в s путем удаления эха, реверберации, шума и конкурирующих говорящих для улучшения разборчивости. На рис. 1 показан общий вид нашей системы.

Рис. 1. Блок-схема цепочки многоканальной онлайн-обработки сигналов на HomePod для Siri.

Многоканальное эхоподавление

Из-за непосредственной близости динамиков к микрофонам на HomePod сигнал воспроизведения может быть значительно громче, чем голосовая команда пользователя в местах расположения микрофонов, особенно когда пользователь отходит от устройства. Фактически, эхо-сигналы могут быть на 30-40 дБ громче, чем речевые сигналы в дальней зоне, в результате чего триггерная фраза не распознается микрофонами при громком воспроизведении музыки. Siri на HomePod реализует алгоритм многоканального эхоподавления (MCEC), который использует набор линейных адаптивных фильтров для моделирования нескольких акустических путей между громкоговорителями и микрофонами для подавления акустической связи. Две проблемы не позволяют MCEC полностью удалить собственный сигнал воспроизведения устройства с микрофонов на практике:

  • Нелинейная муфта. Из-за нелинейности громкоговорителей и механических вибраций устройств весь воспроизводимый сигнал не захватывается моделью линейной системы [8].
  • Неуникальные решения. Когда многоканальный контент воспроизводится из массива динамиков с формированием луча, решение может быть неоднозначным [9].

Поэтому для удаления оставшегося содержимого воспроизведения после MCEC требуется подавитель остаточного эха (RES). Мы обсудим наш подход глубокого обучения к подавлению остаточного эха в следующем разделе.

Подавление эха на основе маски

При громком воспроизведении MCEC обычно обеспечивает недостаточное эхоподавление для успешного обнаружения триггерной фразы, в результате чего уровни остаточного эха на 10–20 дБ выше уровня речи в дальней зоне. RES предназначен для подавления нелинейных составляющих эхо-сигнала, которые не моделируются линейным MCEC. RES также подавляет остаточное линейное эхо, особенно при наличии двойного разговора и изменении эхо-тракта.

Типичные подходы к подавлению остаточного эха на основе данных [10, 11] извлекают входные характеристики из эталонного сигнала и сигнала с эхоподавлением и используют сеть для применения усиления подавления непосредственно к сигналу с эхоподавлением. В нашем подходе к RES DNN принимает несколько входных функций и выводит оценку маски речевой активности, которая используется в качестве входной вероятности присутствия речи (SPP) для многоканального винеровского фильтра (MCWF). Входные признаки извлекаются из сигналов с подавленным эхом вместе с оценкой линейного эха, предоставленной MCEC.

Подход подавления эха на основе маски имеет несколько преимуществ:

  • Поскольку мы обучили глубокую нейронную сеть на реальных записях эха, она научилась подавлять остаточные эхо-сигналы, возникающие из-за нелинейности громкоговорителей и механических вибраций, характерных для HomePod. Эти искажения нелегко отследить и подавить с помощью традиционных статистических подходов.
  • SPP, предсказанный DNN, заставляет MCWF управлять направленными нулями, которые значительно уменьшают остаточное эхо, в то же время внося низкое искажение речи.
  • Мы также использовали SPP для управления усилением одноканального подавления на выходе MCWF для дальнейшего подавления остаточного эха, которое не удаляется MCWF.

Удаление реверберации

По мере того, как источник речи удаляется от микрофонов, множественные отражения от помещения создают хвосты реверберации, которые снижают качество и разборчивость целевой речи. Сигнал, улавливаемый микрофоном, может характеризоваться прямым звуком (речь без каких-либо отражений), ранними отражениями и поздней реверберацией. Поздняя реверберация может серьезно ухудшить работу распознавателя речи [12, 13]. Siri на HomePod постоянно отслеживает характеристики помещения и удаляет позднюю реверберацию, сохраняя компоненты прямого и раннего отражения в сигналах микрофона.

Подавление шума на основе маски

Помимо реверберации, речь в дальней зоне обычно загрязнена шумом от бытовых приборов, вентиляции и кондиционирования воздуха, внешними звуками, проникающими через окна, и различными другими источниками шума. MCWF на основе маски — это мощный инструмент для помехоустойчивого распознавания речи в дальней зоне в пакетных условиях [3,14]. В отличие от традиционных одноканальных подходов, MCWF представляет собой формирователь луча, зависящий от сигнала, который может направлять нули в сторону локализованных в пространстве источников шума без искажения целевой речи. Эта возможность возможна, когда SPP оценивается правильно с использованием либо статистических моделей [14,15], либо обучения с помощью DNN [3]. При пакетной обработке этот подход предполагает, что источники шума и речи не перемещаются во время активных речевых сегментов.

Эти современные методы улучшения речи создают фиксированный фильтр для каждого высказывания, используя все совокупные оценки речи и шума для улучшения речи перед ее подачей на распознаватель. DNN, обученная распознавать спектральные характеристики речи и шума, может еще больше уменьшить шум для этой задачи оценки маски. Однако, чтобы иметь дело с постоянно меняющейся акустической средой, нам нужна онлайн-система шумоподавления, которая может отслеживать окружающий шум с малой задержкой. Мы создали онлайновую MCWF, которая оценивает статистику речи и шума, используя только текущие и прошлые сигналы микрофона. Кроме того, мы развернули DNN, которая предсказывает SPP и управляет MCWF, чтобы направить нулевые значения направления к источникам помех.

Мы обучили DNN на внутренних данных, собранных с использованием как диффузных, так и направленных шумов, а также непрерывных и дискретных шумов, которые трудно смоделировать статистически. Мы синтетически смешали записи только речи на ближнем конце и записи только шума, чтобы получить записи речи плюс шум. Это сочетание позволяет нам генерировать наземные цели (оракулы) для SPP. Мы рассчитали входные характеристики DNN на основе деверберированного сигнала и оценки реверберации. Выходными характеристиками являются маска речевой активности, рассчитанная на основе речи на ближнем конце и смеси речи и шума.

Неконтролируемое обучение с использованием нисходящих знаний для смягчения конкурирующей речи

Искажение целевой речи другими мешающими говорящими является сложной задачей как для улучшения качества речи, так и для ее распознавания. Слепое разделение источников (BSS) — это метод, который может одновременно разделять несколько источников звука на отдельные аудиопотоки без присмотра [4]. Однако выбор правильного аудиопотока из нескольких выходных потоков остается сложной задачей и требует нисходящего знания голосовой команды пользователя. В дополнение к использованию триггерной фразы «Привет, Siri» в качестве сильного акустического сигнала для определения целевого потока, мы разработали подход к разделению конкурирующих говорящих и систему выбора потока с глубоким обучением.

Разделение конкурирующих говорящих

Мы применили легкий в вычислительном отношении метод обучения без учителя для слепого разделения источников, чтобы разложить сигналы массива микрофонов на независимые аудиопотоки. Используемый метод использует статистическое свойство независимости между конкурирующими источниками и корреляцию спектральных компонентов каждого источника и является численно стабильным и быстро сходящимся. Наш алгоритм BSS изучает акустический канал в каждом новом входном звуковом кадре непосредственно из сигналов микрофона и разделяет конкурирующие источники с вычислительной сложностью для каждого источника в заданном поддиапазоне. Он выводит потоки по заданным входным каналам. Хотя алгоритм не страдает неоднозначностью перестановки частот, известной в других традиционных подходах, таких как анализ независимых компонентов, расположение источников вывода не может быть известно заранее. Затем необходимы дополнительные предварительные знания для идентификации целевого потока.

Выбор потока на основе глубокого обучения

Алгоритмы подавления шумов и остаточного эха и разделения источников играют дополнительные роли в предлагаемой системе. Они совместно изучают акустическую среду и учитывают различные условия, в которых можно использовать HomePod, например, тихая среда, шумный фон, громкое воспроизведение и конкурирующий говорящий. Поскольку предварительную информацию об интересующей акустической сцене трудно получить во время выполнения, а расположение выходных потоков BSS является произвольным, мы разработали систему выбора потока на основе глубокого обучения для определения наилучшего аудиопотока с использованием голосового триггера. Наша система по существу использует встроенный в устройство детектор «Привет, Siri» на базе DNN, описанный в [16], и постоянно отслеживает аудиопотоки. Когда обнаруживается «Привет, Siri», каждому потоку присваивается оценка качества. оценка выбирается и отправляется Siri для распознавания речи и выполнения задачи.0003

На рис. 2 показаны примеры триггерных оценок, вычисленных во время «Привет, Siri» для шумоподавления на основе маски (синим цветом) и лучший поток BSS (зеленый). На левом графике показаны данные, полученные в относительно спокойных акустических условиях. Вы можете видеть, что шумоподавление на основе маски является оптимальным. Данные, показанные на правом графике, взяты из более сложных акустических условий — речевой сигнал искажен из-за громкого телевизора, играющего поблизости. Поток BSS имеет большую оценку, и его следует выбирать вместо шумоподавления на основе маски.

Рисунок 2. Оценка голосового триггера в зависимости от времени: (слева) голосовая команда Siri, записанная при низкоуровневом воспроизведении музыки на HomePod, (справа) голосовая команда Siri, записанная на HomePod при воспроизведении телевизора в фоновом режиме.

Среда тестирования

Мы оценили производительность предлагаемой системы обработки речи на большом тестовом наборе речи, записанном на HomePod, в нескольких акустических условиях:

  • Воспроизведение музыки и подкастов на разных уровнях
  • Непрерывный фоновый шум, включая лепет и шум дождя
  • Направленные шумы, создаваемые бытовыми приборами, такими как пылесос, фен и микроволновая печь
  • Помехи от внешних конкурирующих источников речи

В этих записях мы меняли расположение HomePod и испытуемых, чтобы охватить разные варианты использования, например, в гостиной или на кухне, где HomePod располагался у стены или посреди комнаты.

Мы исследовали производительность нашей системы в реальных условиях, когда обнаружение триггера и последующее распознавание голосовой команды совместно влияют на взаимодействие с пользователем. Поэтому мы сообщаем объективные показатели производительности Siri, а именно ложный отказ (FR) и частоту ошибок в словах (WER). Мы экспериментально выбрали компромисс между частотой ложных срабатываний (FA) и FR, чтобы гарантировать наилучшее взаимодействие с пользователем. Поскольку триггерные высказывания могут быть разными при использовании того или иного алгоритма обработки в разных акустических условиях, показатели WER напрямую зависят от производительности триггера. Мы обсудим этот вопрос ниже. В аудиопримерах мы приводим несколько аудиопримеров, чтобы продемонстрировать субъективное качество сигналов, усиленных нашими алгоритмами.

Производительность системы

На рис. 3 показаны FR предлагаемой нами системы улучшения речи на основе глубокого обучения. Порог срабатывания одинаков во всех условиях. Шумоподавление на основе маски подходит для большинства акустических условий, за исключением условий многоголосого и направленного шума, которые хорошо обрабатываются нашей системой выбора потока. Например, в случае конкурирующего говорящего абсолютное улучшение FR многопотоковой системы составляет 29,0 % по сравнению с шумоподавлением на основе маски, которое не имеет возможности разделения источников, и 30,3 % по сравнению с выходом базовой системы DSP (которая включает эхоподавление и деревеберацию).

Рис. 3. Показатели ложных отклонений детектора «Привет, Siri» в нескольких акустических условиях: реверберация, эхо, шум и компромирующий говорящий. « + базовый DSP » относится к базовому DSP. « + подавление шума на основе маски » относится к базовой линии DSP и подавлению шума на основе маски. « + Stream Selection » относится к базовому DSP, шумоподавлению на основе маски и выбору потока.

Разрыв между шумоподавлением на основе маски и многопотоковой системой становится меньше в других акустических условиях. В целом, существует четкая тенденция к здоровому улучшению FR, когда используются наши методы шумоподавления на основе маски и разделения источников (выбор потока).

На рис. 4 показаны значения WER, достигнутые за счет объединения многоканальной обработки сигналов на основе глубокого обучения с распознавателем речи, который мы адаптировали к различным данным в реальном времени (некоторые из них были обработаны с помощью нашей онлайн-обработки многоканальных сигналов). Синяя часть полосы представляет частоту ошибок инициированных высказываний, а зеленая часть представляет частоту ошибок из-за ложно отклоненных высказываний (пропущенных высказываний). Обратите внимание, что для оценки в синей части столбцов используется разное количество слов, поскольку соответствующее количество ложных отклонений значительно различается для каждого случая.

Рисунок 4. Коэффициенты ошибок в словах в тех же акустических условиях, что и на рисунке 3. « + базовый DSP » относится к базовому DSP. « + NR на основе маски» относится к базовому DSP и шумоподавлению на основе маски. « + Stream Selection » относится к базовому DSP, шумоподавлению на основе маски и выбору потока.

Очевидно, что оптимальная интеграция наших технологий обработки речи существенно улучшает общие значения WER в разных условиях. Более конкретно, относительные улучшения WER составляют около 40%, 90%, 74% и 61% в четырех исследованных акустических условиях только реверберации речи, воспроизведения, громкого фонового шума и конкурирующего говорящего соответственно.

Эти результаты также показывают, что в большинстве условий WER для инициированных высказываний (синяя полоса), достигнутые с помощью шумоподавления на основе маски и многопотоковой системы, очень похожи, за исключением конкурирующих случаев говорящего и шума. Как показано на частоте FR на рис. 3, наши алгоритмы обработки сигналов могут существенно различаться по влиянию на обнаружение голосовых триггеров и выбор потока. Различные высказывания могут запускаться с использованием того или иного алгоритма, и эти высказывания имеют разное количество слов. Это явно влияет на окончательные WER, и прямое прямое сравнение различных методов может оказаться непростым.

Основной вывод, который мы можем сделать из рисунка 4, заключается в том, что в дополнение к значительному улучшению FR с использованием многопотоковой системы, показанной на рисунке 3, наша обработка сигналов на основе глубокого обучения значительно снижает количество ошибок в словах. Это улучшение позволяет пользователю легко взаимодействовать с HomePod даже при наличии громкого воспроизведения и внешних акустических искажений, таких как реверберация, шум и конкурирующий говорящий.

Мы внедрили нашу онлайн-систему многоканальной обработки сигналов, используя Apple Accelerate Framework для векторной и матричной математики и вывода нейронных сетей, и мы профилировали систему на одном ядре чипа Apple A8. Предлагаемая нами система улучшения речи потребляет менее 15% ресурсов одного ядра чипа A8, работающего на частоте 1,4 ГГц.

Вы можете прослушать следующие звуковые примеры, которые демонстрируют эффекты улучшения нашей обработки в присутствии реверберации с тихим фоном, добавочного шума, создаваемого посудомоечной машиной, воспроизведения музыки и мешающих собеседников. Соответствующие спектрограммы показаны на рисунках 5, 6, 7 и 8. При субъективном прослушивании и визуальном осмотре каждого из этих примеров вы должны услышать, что акустические искажения значительно уменьшились, что значительно облегчает задачу распознавания речи. через условия.

Примеры аудио

Рисунок 5. Голосовая команда Siri, записанная при наличии реверберации:
(сверху) сигнал микрофона
(внизу) деверберированный сигнал

Рис. 6. Голосовая команда Siri при наличии фонового шума от посудомоечной машины рядом:
(сверху) сигнал микрофона
(внизу) сигнал, усиленный нашим шумоподавлением на основе маски

Рис. 7. Голосовая команда Siri, записанная при громком воспроизведении музыки:
(сверху) сигнал микрофона
(средний) вывод MCEC
(внизу) сигнал, усиленный нашим подавлением эха на основе маски

Рисунок 8. Голосовая команда Siri, записанная при наличии помех от других говорящих:
(сверху) сигнал микрофона
(внизу) извлеченная целевая речь

Ссылки

[1] K. Kinoshita, M. Delcroix, T. Yoshioka, T. Nakatani, A. Sehr, W. Kellermann и R. Maas. Задача REVERB: общая схема оценки дереверберации и распознавания реверберационной речи , в проц. IEEE WASPAA , 2013 г.

[2] 4-й вызов CHiME по разделению и распознаванию речи , 2016 г.

[3] Х. Эрдоган, Дж. Р. Херши, С. Ватанабе, М. Мандель и Дж. Ле Ру. Улучшено формирование луча MVDR с использованием одноканальных сетей прогнозирования по маске , в Proc. ISCA Interspeech , 2016.

[4] М.С. Педерсен, Дж. Ларсен, У. Кемс и Л.К. Парра. Обзор сверточных методов разделения источников вслепую , Multichannel Speech Processing Handbook , 2007.

[5] JR Hershey, Z. Chen, J. Le Roux, and S. Watanabe. Глубокая кластеризация: дискриминативные вложения для сегментации и разделения , в Proc. IEEE ICASSP , 2016.

[6] Д. Ю., М. Колбек, З.-Х. Тан и Дж. Дженсен. Инвариантное перестановочное обучение глубоких моделей для независимого от говорящего разделения речи нескольких говорящих , в Proc. IEEE ICASSP , 2017.

[7] Т. Хори, С. Араки, Т. Йошиока, М. Фудзимото, С. Ватанабэ, Т. Оба, А. Огава, К. Оцука, Д. Миками, К. Киношита , Т. Накатани, А. Накамура и Дж. Ямато. Распознавание и понимание собраний в режиме реального времени с малой задержкой с использованием удаленных микрофонов и всенаправленной камеры , IEEE Transactions on Audio, Speech and Language Processing , vol. 20, нет. 2012. Т. 2. С. 499–513.

[8] Д.А. Бендерский, Ю.В. Стокс и Х.С. Малвар. Нелинейное подавление остаточного акустического эха для высоких уровней гармонических искажений , В Proc. IEEE ICASSP , 2008.

[9] М.М. Сондхи, Д.Р. Морган и Дж. Л. Холл. Подавление стереофонического акустического эха — обзор фундаментальной проблемы , IEEE Signal Processing Letters , vol. 2, нет. 8, pp. 148–151, 1995.

[10] A. Schwartz, C. Hofmann, and W. Kellermann. Подавление нелинейного остаточного эха на основе спектральных признаков , в Proc. IEEE WASPAA , 2013.

[11] C. M. Lee, J. W. Shin и N. S. Kim. Подавитель остаточного эха на основе DNN , в Proc. ISCA Interspeech , 2015.

[12] Т. Йошиока, А. Сер, М. Делькруа, К. Киношита, Р. Маас, Т. Накатани и В. Келлерманн. Заставить машины понимать нас в реверберирующих помещениях: устойчивость к реверберации для автоматического распознавания речи , Журнал обработки сигналов IEEE , vol. 29, нет. 6, pp. 114–126, 2012.

[13] А. Юкич, Т. ван Ватершут, Т. Геркманн и С. Докло. Разреженность группы для устранения реверберации речи MIMO , в Proc. IEEE WASPAA , 2015.

[14] М. Суден, С. Араки, К. Киношита, Т. Накатани и Х. Савада. Многоканальная платформа на основе MMSE для разделения источников речи и снижения шума , IEEE Transactions on Audio, Speech, and Language Processing , vol. 21, нет. 9, pp. 1913–1928, 2013.

[15] M. Souden, J. Chen, J. Benesty, and S. Affes. Интегрированное решение для онлайн-отслеживания и снижения многоканального шума , IEEE Transactions on Audio, Speech, and Language Processing , vol. 19, нет. 7, стр. 2159–2169, 2011.

[16] Siri Team. Привет, Сири: голосовой триггер на основе DNN на устройстве для персонального помощника Apple , Исследование машинного обучения Apple

Уменьшение фонового шума на собраниях Teams

Команды Майкрософт

Встречи

Встречи

Уменьшить фоновый шум на собраниях Teams

Microsoft Teams Больше… Меньше

Когда ваш микрофон включен во время собрания или звонка Teams, фоновый шум вокруг вас — шуршание бумаг, хлопанье дверей, лай собак и т. д. — может отвлекать других. Teams предлагает три уровня шумоподавления для настольного приложения Teams и iOS, чтобы помочь участникам встречи сосредоточиться.

Вы можете изменить этот параметр в любое время. После изменения настройка переносится на следующую встречу или звонок.

Чтобы изменить уровень шумоподавления для собрания, на котором вы сейчас находитесь, используйте вторую процедуру.

Из главного окна Teams

  1. Выберите изображение своего профиля в правом верхнем углу Teams, а затем выберите Настройки .

  2. Выберите Устройства слева, а затем в разделе Подавление шума выберите вариант.


    • Авто (по умолчанию)  
    Приложение Teams выбирает лучший уровень шумоподавления на основе локального шума.




    Высокий  Подавляет все фоновые звуки, кроме речи.

    Примечания:

    • Для этого варианта процессор вашего компьютера должен поддерживать Advanced Vector Extensions 2 (AVX2).

    • Включение этого параметра использует больше ресурсов компьютера.




    Низкий  Подавляет низкие уровни постоянного фонового шума, такого как компьютерный вентилятор или кондиционер. Используйте этот параметр для воспроизведения музыки.

    Выкл.  Шумоподавление отключено. Используйте эту настройку для высококачественных микрофонов в условиях с низким уровнем шума.

Из окна встречи

  1. Выберите Дополнительные параметры  в элементах управления собранием, а затем выберите Настройки устройства .

  2. В разделе Подавление шума выберите параметр. (Описание опций см. в шаге 2 выше.)

Установите уровень шумоподавления на iOS

  1. Выберите изображение своего профиля, затем выберите Настройки .