(1) 会議動画MPEG4をFLAC形式に変換する
ffmpeg -i input.mp4 -vn -acodec flac output.flac
(2) ファイルをGoogle Cloudにアップロードする
(3) Google Speech-to-Textを実行する
./google-cloud-sdk/bin/gcloud ml speech recognize-long-running gs://{gsutil URI
}/input.flac --language-code='ja-JP' --async
(4) シェルスクリプト(extract_transcripts.sh)を作成する
#!/bin/bash
# JSONファイルのパスを引数として受け取る
input_json="$1"
output_txt="$2"
# jqコマンドを使用してトランスクリプトを抽出し、テキストファイルに保存
jq -r '.response.results[].alternatives[0].transcript' "$input_json" > "$output_txt"
echo "Transcripts have been extracted to $output_txt"
(5) 実行権限を付与する
chmod +x extract_transcripts.sh
(6) JSONファイルからテキストのみを抽出する
./extract_transcripts.sh input.json output.txt