Amazon Transcribeの練習ということで、youtubeのAWS blackbelt CodeBuildの冒頭部分で試してみました(ちょうどこの動画を見ていたので)。
数十秒切り出してmp3に保存します。 (mp3の切り出しは、Chromeのextension Chrome Audio Captureを使いました)
mp3をS3にアップロードしてからTranscribeで読み出します。チュートリアル通りで簡単。
結果、冒頭約30秒の中で書き起こしが間違っているのは
- AWS - > 永田 ブレス
- CodeBuild -> コード フィールド
- コードシリーズ -> 好投 市立
という語でした。逆空耳みたいでちょっと面白いですね。
Vocabularyを設定登録
設定ファイルの書き方がよくわからず、ちょっと嵌りました。IPAの発音記号は使わず、SoundLikeの部分をローマ字読みにします。
My_vocabulary.txtというファイルを作ってアップロードします。IPAの部分はTAB空白で飛ばします。
- txtは LF改行で、UTF-8に
- 空白はタブで
- 日本語のカスタム語彙は、リストではなくテーブルで入れる。S3経由でしか読み込めない。
- 最後に空白行があるのは問題なかった
- pendingになってけっこう待たされてからFailになったりする
- 使える文字を気をつけること。公式Githubに情報がある。
https://github.com/awsdocs/amazon-transcribe-developer-guide/blob/master/doc_source/japanese-character-set.txt
https://dev.classmethod.jp/articles/amazon-transcribe-japanese-custom-vocabulary/
https://docs.aws.amazon.com/ja_jp/transcribe/latest/dg/how-vocabulary.html#create-vocabulary-list
Vocabulary登録結果
語彙を登録した部分は修正することができました。連続した語の1つだけ直してみた場合は片方だけ直りました(「好投 市立」は「コード 市立」になりました。)当たり前ですが・・・。
感想
文字起こしとして使うには、まだまだ精度が足りないかもしれない、と思います。
一般名称はまぁまぁ正確ですが、固有名詞は「AWS」すら読めないことで、難しいのでしょう。さすがにAWSの日本語チームとしてもはがゆいところなのではないでしょうか。かつてGoogle日本語入力が出てきたときのような固有名詞への革命的強化が必要なのかも。しかし日本語はマイナ言語だから扱いがショボいような。Lexが日本語化されたので何か進むといいですが。今後に期待です。
0 件のコメント:
コメントを投稿