Я пытался учиться и работать с приложением распознавания речи, искал и искал слишком долго, нашел много полезной информации и руководств..
Наконец, я нашел и использовал этот проект: ЗДЕСЬ
Он работал отлично, пока я не пробовал с некоторыми шумными примерами фона.
Я попытался добавить обычную грамматику вместе с Dictation, попробовал использовать только Custom Grammar, но все равно получаю тот же результат (или, что еще хуже).
_speechRecognitionEngine.LoadGrammar(_dictationGrammar);
_speechRecognitionEngine.LoadGrammar(new Grammar(new GrammarBuilder(new Choices("a", "b", "c",
"d","e","f","g","h","i","j","k","l","m","n","o","p","q","r","s","t","u",
"v","w","x","y","z","please","type","the","letters","you","hear"))) { Name = "NewGrammar" });
_speechRecognitionEngine.RecognizeAsync(RecognizeMode.Multiple);
Всегда такой же результат: Пожалуйста, напечатайте "Письма, которые вы слышите".
всегда появляются любые буквы: его персонал.
Итак, есть ли способ уменьшить фоновый шум? или отредактировать образец WAV?
и вопрос новичков: можно ли использовать какой-то образец аудио в качестве "Выбор"? (прочитайте его в байтах, затем сравните или как угодно).
Образец аудио для тестирования: образец аудио
Правильный результат для этого образца Должно быть: Пожалуйста, введите буквы, которые вы слышите HCDVA.
Я изучаю подобную проблему. Вы можете отфильтровать этот файл через другое приложение, в котором есть функция удаления шума, а также сценарий или режим командной строки (например, Audacity или Sox). Они могут быть вызваны из программы С#, используя класс Process.
В качестве альтернативы для этой цели существует коммерчески лицензированная библиотека.NET для https://visualstudiogallery.msdn.microsoft.com/53d1f3fc-44d2-4a53-8211-99ca4b70536d.
soxi
запущенного на нем: «Форматы soxi FAIL: невозможно открыть входной файл` HCDVA.wav ': WAVE: заголовок RIFF не найден »