Как ускорить время обработки AWS Transcribe?

Question

Как ускорить время обработки AWS Transcribe?

1

У меня есть 6-секундная аудиозапись (ar-01.wav) в формате wav. Я хочу, чтобы транскрибировать аудиофайл в текст, используя службы amazon. Для этого я создал ведро по имени test-voip и загрузил аудиофайл в ведро. Когда я пытаюсь преобразовать речь в текст, 6-секундный звук занимает 13.12 секунды. Вот мой фрагмент кода

session = boto3.Session(aws_access_key_id=aws_access_key_id, 
aws_secret_access_key=aws_secret_access_key)
transcribe = session.client('transcribe', region_name='us-east-1')
job_name = "audio_text_trail9"
job_uri = "https://test-voip.s3.amazonaws.com/ar-01.wav"
transcribe.start_transcription_job(
    TranscriptionJobName=job_name,
    Media={'MediaFileUri': job_uri},
    MediaFormat='wav',
    LanguageCode='en-US',
    MediaSampleRateHertz=16000
    )

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
print("converted to text")
myurl = status['TranscriptionJob']['Transcript']['TranscriptFileUri']
print(myurl)
Text_Data = (requests.get(myurl).json())['results']['transcripts'][0]['transcript']

print(Text_data)

Здесь мой код работает отлично, и точность является удивительной даже на шумном аудио, но потребление времени слишком велико. Где я сделал ошибку и что затягивает это огромное время, чтобы расшифровать? Как только я получу транскрипцию json, время для извлечения необходимой информации незначительно. Как ускорить процесс для расшифровки или есть ли другой лучший способ сделать это?

Raady 20 авг. 2018, в 13:30

Источник

2

Почему время является проблемой для вас? Это проблема, если n-секундный клип обрабатывается дольше, чем n-секундный?
John Rotenstein 20 авг. 2018, в 11:15
0

Предоставляет ли AWS какие-либо гарантии того, насколько быстро файл будет обработан? Они могут показывать вам новый экземпляр где-то, что занимает несколько секунд, иначе вашему файлу придется ждать в очереди, прежде чем его можно будет обработать. Вот почему API основан на заданиях, а не на синхронном API с немедленным возвратом.
deceze♦ 20 авг. 2018, в 11:41
0

Джон, да, мне нужно, чтобы это было быстрее для Моего приложения.
Raady 20 авг. 2018, в 11:59
1

Вы можете попробовать загрузить файл большего размера и посмотреть, будет ли время обработки расти линейно. Если это так, он просто выполняет большую обработку и требует этого времени. Если время значительно не увеличивается (например, для 60-секундного аудиофайла требуется 20 секунд), это означает, что при запуске задания просто есть определенные накладные расходы. В любом случае, я ожидаю, что он уже будет работать так быстро, как может, и нет никакого секрета - --doubletime переключения.
deceze♦ 20 авг. 2018, в 12:04
0

запуск даже моего кода Python на сервере AWS будет иметь какое-либо значение?
Raady 20 авг. 2018, в 13:23
0

@deceze: время примерно вдвое больше времени. Я пробовал с несколькими файлами с разной продолжительностью, и результаты одинаковы для каждого файла. Как 1 минута аудио занимает 2 минуты, 10 секунд аудио занимает около 20 секунд.
Raady 22 авг. 2018, в 15:07
0

Так что, вероятно, просто нужно время, чтобы сделать свое дело. Если он слишком медленный для ваших нужд, обратитесь в AWS.
deceze♦ 22 авг. 2018, в 15:08

Показать ещё 5 комментариев

Теги:

python

amazon-web-services

amazon-s3

boto3

1 ответ

Ещё вопросы

Почему время является проблемой для вас? Это проблема, если n-секундный клип обрабатывается дольше, чем n-секундный?
Предоставляет ли AWS какие-либо гарантии того, насколько быстро файл будет обработан? Они могут показывать вам новый экземпляр где-то, что занимает несколько секунд, иначе вашему файлу придется ждать в очереди, прежде чем его можно будет обработать. Вот почему API основан на заданиях, а не на синхронном API с немедленным возвратом.
Джон, да, мне нужно, чтобы это было быстрее для Моего приложения.
Вы можете попробовать загрузить файл большего размера и посмотреть, будет ли время обработки расти линейно. Если это так, он просто выполняет большую обработку и требует этого времени. Если время значительно не увеличивается (например, для 60-секундного аудиофайла требуется 20 секунд), это означает, что при запуске задания просто есть определенные накладные расходы. В любом случае, я ожидаю, что он уже будет работать так быстро, как может, и нет никакого секрета - --doubletime переключения.
запуск даже моего кода Python на сервере AWS будет иметь какое-либо значение?
@deceze: время примерно вдвое больше времени. Я пробовал с несколькими файлами с разной продолжительностью, и результаты одинаковы для каждого файла. Как 1 минута аудио занимает 2 минуты, 10 секунд аудио занимает около 20 секунд.
Так что, вероятно, просто нужно время, чтобы сделать свое дело. Если он слишком медленный для ваших нужд, обратитесь в AWS.

Rubens_Z · Answer 1 · 2019-01-29T11-48-00.000Z

Для меня AWS Transcribe занял 20 минут, чтобы расшифровать 17 минутный файл. Одна из возможных идей - разделить аудиофайл на куски, а затем использовать многопроцессорную обработку с 16 ядрами в EC2, как экземпляр g3.4xlarge.

Разделите аудиофайл на 16 частей с пороговым значением тишины -20, а затем преобразуйте в .wav:

$ sudo apt-get install mp3splt
$ sudo apt-get install ffmpeg
$ mp3splt -s -p th=-20,nt=16 splitted.mp3
$ ffmpeg -i splitted.mp3 splitted.wav

Затем используйте многопроцессорную обработку с 16 ядрами для одновременной записи, сопоставляя вашу функцию транскрипции (transcribe.start_transcription_job) для каждого из TranscriptionJobName и job_uri:

import multiprocessing

output=[]
data = range(0,16)

def f(x):
    job_name = "Name"+str(x)
    job_uri = "https://s3.amazonaws.com/bucket/splitted"+str(x)+".wav"
    transcribe.start_transcription_job(
    TranscriptionJobName=job_name,
    Media={'MediaFileUri': job_uri},
    MediaFormat='wav',
    LanguageCode='pt-BR',
    OutputBucketName= "bucket",
    MediaSampleRateHertz=8000,
    Settings={"MaxSpeakerLabels": 2,
      "ShowSpeakerLabels": True})
    while True:
        status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
        if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED','FAILED']:
            break

def mp_handler():
    p = multiprocessing.Pool(16)
    r=p.map(f, data)
    return r

if __name__ == '__main__':
    output.append(mp_handler())

Проект, который я пытался остановить, был остановлен из-за нехватки времени. Я попробую и надеюсь, что смогу перезапустить свой проект, если решение будет работать! Я скоро опубликую результат.