Сбой распознавания речи из-за фонового шума

1

Я пытался учиться и работать с приложением распознавания речи, искал и искал слишком долго, нашел много полезной информации и руководств..

Наконец, я нашел и использовал этот проект: ЗДЕСЬ

Он работал отлично, пока я не пробовал с некоторыми шумными примерами фона.

Я попытался добавить обычную грамматику вместе с Dictation, попробовал использовать только Custom Grammar, но все равно получаю тот же результат (или, что еще хуже).

_speechRecognitionEngine.LoadGrammar(_dictationGrammar);
        _speechRecognitionEngine.LoadGrammar(new Grammar(new GrammarBuilder(new Choices("a", "b", "c",
            "d","e","f","g","h","i","j","k","l","m","n","o","p","q","r","s","t","u",
            "v","w","x","y","z","please","type","the","letters","you","hear"))) { Name = "NewGrammar" });
        _speechRecognitionEngine.RecognizeAsync(RecognizeMode.Multiple);

Всегда такой же результат: Пожалуйста, напечатайте "Письма, которые вы слышите".

всегда появляются любые буквы: его персонал.

Итак, есть ли способ уменьшить фоновый шум? или отредактировать образец WAV?

и вопрос новичков: можно ли использовать какой-то образец аудио в качестве "Выбор"? (прочитайте его в байтах, затем сравните или как угодно).

Образец аудио для тестирования: образец аудио

Правильный результат для этого образца Должно быть: Пожалуйста, введите буквы, которые вы слышите HCDVA.

  • 0
    комментарий с небольшим объяснением был бы лучше чем Голосование вниз !! Благодарю.
  • 0
    Можете ли вы проверить образец, который вы предоставили? Я не слышу это правильно, и это вывод soxi запущенного на нем: «Форматы soxi FAIL: невозможно открыть входной файл` HCDVA.wav ': WAVE: заголовок RIFF не найден »
Показать ещё 4 комментария
Теги:
speech-to-text
speech-recognition

1 ответ

0

Я изучаю подобную проблему. Вы можете отфильтровать этот файл через другое приложение, в котором есть функция удаления шума, а также сценарий или режим командной строки (например, Audacity или Sox). Они могут быть вызваны из программы С#, используя класс Process.

В качестве альтернативы для этой цели существует коммерчески лицензированная библиотека.NET для https://visualstudiogallery.msdn.microsoft.com/53d1f3fc-44d2-4a53-8211-99ca4b70536d.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню