Сбой распознавания речи из-за фонового шума

Question

Сбой распознавания речи из-за фонового шума

1

Я пытался учиться и работать с приложением распознавания речи, искал и искал слишком долго, нашел много полезной информации и руководств..

Наконец, я нашел и использовал этот проект: ЗДЕСЬ

Он работал отлично, пока я не пробовал с некоторыми шумными примерами фона.

Я попытался добавить обычную грамматику вместе с Dictation, попробовал использовать только Custom Grammar, но все равно получаю тот же результат (или, что еще хуже).

_speechRecognitionEngine.LoadGrammar(_dictationGrammar);
        _speechRecognitionEngine.LoadGrammar(new Grammar(new GrammarBuilder(new Choices("a", "b", "c",
            "d","e","f","g","h","i","j","k","l","m","n","o","p","q","r","s","t","u",
            "v","w","x","y","z","please","type","the","letters","you","hear"))) { Name = "NewGrammar" });
        _speechRecognitionEngine.RecognizeAsync(RecognizeMode.Multiple);

Всегда такой же результат: Пожалуйста, напечатайте "Письма, которые вы слышите".

всегда появляются любые буквы: его персонал.

Итак, есть ли способ уменьшить фоновый шум? или отредактировать образец WAV?

и вопрос новичков: можно ли использовать какой-то образец аудио в качестве "Выбор"? (прочитайте его в байтах, затем сравните или как угодно).

Образец аудио для тестирования: образец аудио

Правильный результат для этого образца Должно быть: Пожалуйста, введите буквы, которые вы слышите HCDVA.

Dr.Vision 09 окт. 2014, в 06:16

Источник

0

комментарий с небольшим объяснением был бы лучше чем Голосование вниз !! Благодарю.
Dr.Vision 09 окт. 2014, в 10:21
0

Можете ли вы проверить образец, который вы предоставили? Я не слышу это правильно, и это вывод soxi запущенного на нем: «Форматы soxi FAIL: невозможно открыть входной файл` HCDVA.wav ': WAVE: заголовок RIFF не найден »
lCapp 10 окт. 2014, в 15:15
0

Я использовал Spectro и получил эти значения: Частота дискретизации: 22 кГц Каналы: 1 бит на выборку: 16 Размер: 0,27 МБ Средняя скорость передачи: 353 Кбит / с ....
Dr.Vision 11 окт. 2014, в 02:59
0

Извините, у меня действительно нет опыта работы с аудио файлами.
Dr.Vision 11 окт. 2014, в 03:00
0

ПРОГРЕСС: Используя Audacity, 1- выберите часть, которая молчит, за исключением шума, затем выберите Effect> Noise Removal и нажмите «Get Profile». 2-Применить шумоподавление дважды. Затем экспортировал новый аудиофайл для тестирования с проектом распознавания речи. Результат: Пожалуйста, наберите буквы, которые вы слышите, CDV 8 (CDV 8 = H CDV A) почти на 80% успешны ... есть идеи, как сделать это удаление шума в коде C #? !!
Dr.Vision 11 окт. 2014, в 18:14
0

Любая помощь?! В любом случае, чтобы удалить фоновый шум программно?
Dr.Vision 14 окт. 2014, в 16:11

Показать ещё 4 комментария

Теги:

c#

speech-to-text

speech-recognition

1 ответ

Ещё вопросы

комментарий с небольшим объяснением был бы лучше чем Голосование вниз !! Благодарю.
Можете ли вы проверить образец, который вы предоставили? Я не слышу это правильно, и это вывод soxi запущенного на нем: «Форматы soxi FAIL: невозможно открыть входной файл` HCDVA.wav ': WAVE: заголовок RIFF не найден »
Я использовал Spectro и получил эти значения: Частота дискретизации: 22 кГц Каналы: 1 бит на выборку: 16 Размер: 0,27 МБ Средняя скорость передачи: 353 Кбит / с ....
Извините, у меня действительно нет опыта работы с аудио файлами.
ПРОГРЕСС: Используя Audacity, 1- выберите часть, которая молчит, за исключением шума, затем выберите Effect> Noise Removal и нажмите «Get Profile». 2-Применить шумоподавление дважды. Затем экспортировал новый аудиофайл для тестирования с проектом распознавания речи. Результат: Пожалуйста, наберите буквы, которые вы слышите, CDV 8 (CDV 8 = H CDV A) почти на 80% успешны ... есть идеи, как сделать это удаление шума в коде C #? !!
Любая помощь?! В любом случае, чтобы удалить фоновый шум программно?

jonnybot · Answer 1 · 2016-03-01T03-07-00.000Z

Я изучаю подобную проблему. Вы можете отфильтровать этот файл через другое приложение, в котором есть функция удаления шума, а также сценарий или режим командной строки (например, Audacity или Sox). Они могут быть вызваны из программы С#, используя класс Process.

В качестве альтернативы для этой цели существует коммерчески лицензированная библиотека.NET для https://visualstudiogallery.msdn.microsoft.com/53d1f3fc-44d2-4a53-8211-99ca4b70536d.