moyaのブログ

Google Speech API メモ

完全自分用メモ

結論

日本語は滑舌良い，かつ録音環境良い，じゃないと精度出にくい感じ

APIの有効化

クレカ登録したりしないといけないのでだるい．

ファイル形式の変換

wavかflacにしとく

ffmpeg -i @"1.m4a" -vn -ac 2 -ar 44100 -acodec pcm_s16le -f wav "1.wav"

curlぶっ叩く

GitHub - gillesdemey/google-speech-v2: Reverse Engineering Google's Speech To Text API (v2)

audio/l16：wavの場合はこれ．拡張子ごとにContent-Typeを指定する必要がある
rate=44100：サンプリングレートも正確に指定する必要があるっぽい

curl -X POST --data-binary @'1.wav' --header 'Content-Type: audio/l16; rate=44100;' 'https://www.google.com/speech-api/v2/recognize?output=json&lang=ja-JP&key={ここにAPIキー}'

# => {"result":[]}
# => {"result":[{"alternative":[{"transcript":"フォンテーヌ ボルボ","confidence":1},{"transcript":"フォンテーヌ 包丁"},{"transcript":"フォンテーヌ ボツボツ"},{"transcript":"本当 メートル 坪"},{"transcript":"フォンテーヌ ぼつぼつ"}],"final":true}],"result_index":0}