Python 3 – 音声文字変換-Pythonチュートリアル

Pythonを使用してオーディオファイルを自動的に転記できます。

話し言葉を含む音声ファイルがある場合、プログラムはその音声ファイルの文字起こしを完全に自動的に出力します。

この例では、音声ファイルの入力言語として英語を使用していますが、技術的には、音声認識エンジンがサポートしている限り、どの言語でも使用できます。

関連コース: 完全なPythonプログラミングコースと演習

スピーチを含むオーディオファイルを作成することから始めます。 これは、英語の単語を含む任意のオーディオファイルにすることができます。 ファイルを名前を付けて保存 トランスクリプト.mp3

話し言葉の音声ファイルをどこで入手できるかわからない場合は、次を使用できます。 Bluemix 1つを生成します。

前提条件をインストールする

アプリを実行するには、いくつかのものをインストールする必要があります。

  • Python 3
  • モジュールpydub
  • プログラムffmpeg
  • モジュールSpeechRecognition

Pythonモジュールはpipでインストールできます。 ffmpegはパッケージマネージャー(apt-get、emerge、yum、pacman)と一緒にインストールできます

書き写す

音声文字変換は、いくつかの手順で機能します。

  1. mp3からwavへの変換、
  2. オーディオファイルをロードし、
  3. オーディオファイルをspeceh認識システムに送ります。

以下のプログラムをコピーして、名前を付けて保存します transcribe.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import speech_recognition as sr
from os import path
from pydub import AudioSegment


sound = AudioSegment.from_mp3("transcript.mp3")
sound.export("transcript.wav", format="wav")



AUDIO_FILE = "transcript.wav"


r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
audio = r.record(source)

print("Transcription: " + r.recognize_google(audio))

次のコマンドでプログラムを実行します。

元のオーディオファイルの文字起こしを出力します。

オーディオの例をダウンロードする

Hope this helps!

Source link