完全自分用メモ
結論
- 日本語は滑舌良い,かつ録音環境良い,じゃないと精度出にくい感じ
APIの有効化
クレカ登録したりしないといけないのでだるい.
ファイル形式の変換
wavかflacにしとく
ffmpeg -i @"1.m4a" -vn -ac 2 -ar 44100 -acodec pcm_s16le -f wav "1.wav"
curlぶっ叩く
GitHub - gillesdemey/google-speech-v2: Reverse Engineering Google's Speech To Text API (v2)
audio/l16
:wavの場合はこれ.拡張子ごとにContent-Type
を指定する必要があるrate=44100
:サンプリングレートも正確に指定する必要があるっぽい
curl -X POST --data-binary @'1.wav' --header 'Content-Type: audio/l16; rate=44100;' 'https://www.google.com/speech-api/v2/recognize?output=json&lang=ja-JP&key={ここにAPIキー}' # => {"result":[]} # => {"result":[{"alternative":[{"transcript":"フォンテーヌ ボルボ","confidence":1},{"transcript":"フォンテーヌ 包丁"},{"transcript":"フォンテーヌ ボツボツ"},{"transcript":"本当 メートル 坪"},{"transcript":"フォンテーヌ ぼつぼつ"}],"final":true}],"result_index":0}