Zoom会議をテキスト化

(1) 会議動画MPEG4をFLAC形式に変換する

ffmpeg -i input.mp4 -vn -acodec flac output.flac

(2) ファイルをGoogle Cloudにアップロードする

(3) Google Speech-to-Textを実行する

./google-cloud-sdk/bin/gcloud ml speech recognize-long-running gs://{gsutil URI
}/input.flac --language-code='ja-JP' --async

(4) シェルスクリプト(extract_transcripts.sh)を作成する

#!/bin/bash

# JSONファイルのパスを引数として受け取る
input_json="$1"
output_txt="$2"

# jqコマンドを使用してトランスクリプトを抽出し、テキストファイルに保存
jq -r '.response.results[].alternatives[0].transcript' "$input_json" > "$output_txt"

echo "Transcripts have been extracted to $output_txt"

(5) 実行権限を付与する

chmod +x extract_transcripts.sh

(6) JSONファイルからテキストのみを抽出する

./extract_transcripts.sh input.json output.txt