Google Speech API メモ

完全自分用メモ

結論

  • 日本語は滑舌良い,かつ録音環境良い,じゃないと精度出にくい感じ

APIの有効化

クレカ登録したりしないといけないのでだるい.

qiita.com

ファイル形式の変換

wavかflacにしとく

ffmpeg -i @"1.m4a" -vn -ac 2 -ar 44100 -acodec pcm_s16le -f wav "1.wav"

curlぶっ叩く

GitHub - gillesdemey/google-speech-v2: Reverse Engineering Google's Speech To Text API (v2)

  • audio/l16:wavの場合はこれ.拡張子ごとにContent-Typeを指定する必要がある
  • rate=44100:サンプリングレートも正確に指定する必要があるっぽい
curl -X POST --data-binary @'1.wav' --header 'Content-Type: audio/l16; rate=44100;' 'https://www.google.com/speech-api/v2/recognize?output=json&lang=ja-JP&key={ここにAPIキー}'

# => {"result":[]}
# => {"result":[{"alternative":[{"transcript":"フォンテーヌ ボルボ","confidence":1},{"transcript":"フォンテーヌ 包丁"},{"transcript":"フォンテーヌ ボツボツ"},{"transcript":"本当 メートル 坪"},{"transcript":"フォンテーヌ ぼつぼつ"}],"final":true}],"result_index":0}