Claude Codeで動画編集を自動化する方法|無音カット実測35秒の実録
動画編集の「下処理」——無音カット・文字起こし・字幕・書き出しは、Claude Code+ffmpeg+Whisperでほぼ自動化できます。私の環境では、5分動画の無音カットが検出5秒+書き出し29秒の計約35秒で終わりました。
この記事では、実際に手元で計測した数字を添えて、次のことを書きます。
- Claude Codeで動画編集のどこまでが自動化できて、どこからができないのか
- 無音カットの具体的な手順と実測時間
- 文字起こし→字幕テロップの手順と、Whisper APIの実費
- 処理別のコストまとめ(時間とお金)
実行環境は Windows 10/Claude Code/ffmpeg 8.1、2026年7月時点の情報です。処理時間は「実測」と記載したものがこの環境(CPU処理)での計測値です。
Claude Codeで動画編集はどこまで自動化できるのか?
自動化できるのは「判断が要らない下処理」で、カット選びや演出などの編集判断は自動化できません。まずこの線引きを押さえると、期待外れを避けられます。
Claude Code自体に動画編集機能はありません。Claude Codeがやるのは、日本語の指示を受けて、ffmpeg(動画処理)やWhisper(文字起こし)といったツールのコマンドを組み立てて実行することです。つまり「ツールを操作してくれる相棒」であって、編集ソフトの代替ではありません。
| 作業 | 自動化 | 使うツール |
|---|---|---|
| 無音区間のカット | ◎ | ffmpeg |
| 文字起こし | ◎ | Whisper API |
| 字幕(srt)の生成・焼き込み | ◎ | Whisper+ffmpeg |
| 形式変換・リサイズ・書き出し | ◎ | ffmpeg |
| カットの取捨選択(どこを残すか) | × | 人間 |
| テロップの演出・デザイン | △(定型なら可) | Remotion等+人間 |
「撮ったあと、編集ソフトを開く前の面倒な作業」を丸ごと任せる、というのが現実的な使いどころです。
無音カットは実際どれくらい速いのか?【実測35秒】
5分(300秒)の720p動画で、無音検出が5秒、カット済みファイルの書き出しが29秒。合計約35秒でした。手順と一緒に、計測条件も正直に書きます。
テスト条件
- 素材: 5分(300秒)の720p動画。30秒の無音区間を3箇所(計90秒)配置したテスト素材(音声はサイン波+完全無音)
- 環境: Windows 10、CPU処理、ffmpeg 8.1(2026年7月5日計測)
手順1: Claude Codeに日本語で指示する
ターミナルでClaude Codeを起動し、次のように指示しました。
input.mp4 の無音部分(2秒以上続く箇所)を検出して、
その区間をカットした動画を output.mp4 として書き出して
コマンドを自分で書く必要はありません。Claude Codeがffmpegのコマンドを組み立てて、確認を挟みながら実行してくれます。
手順2: 無音検出(実測5秒)
Claude Codeが最初に組み立てたのは、ffmpegのsilencedetectフィルタです。
ffmpeg -i input.mp4 -af silencedetect=noise=-40dB:d=2 -f null -
noise=-40dB: この音量以下を「無音」とみなす閾値d=2: 2秒以上続いた場合だけ無音区間として扱う
5分動画の解析は5秒で完了し、3つの無音区間すべてを誤差0.001秒以下で検出しました。
手順3: 無音区間を除いて書き出す(実測29秒)
検出したタイムスタンプをもとに、Claude Codeがselect/aselectフィルタでカット書き出しのコマンドを組み立てます。
ffmpeg -i input.mp4 \
-vf "select='not(between(t,START1,END1)+between(t,START2,END2)+between(t,START3,END3))',setpts=N/FRAME_RATE/TB" \
-af "aselect='not(between(t,START1,END1)+between(t,START2,END2)+between(t,START3,END3))',asetpts=N/SR/TB" \
output.mp4
720p再エンコードで29秒。出力は210.0秒で、計算どおり無音の90秒が除去されていました。ffmpegの個別コマンドの意味はClaude Codeでffmpegを動かす基本コマンドレシピ集で詳しく解説しています。
正直な注意: 実際の撮影素材では調整が必要です
上の実測は「完全無音」という理想条件でのテストです。実際の撮影素材には環境音(エアコン、部屋の反響、マイクのノイズ)が乗っているため、noise=-40dB のままでは無音を検出できないことがあります。素材に合わせて閾値(-35dB、-30dBなど)と最短無音秒数(d=1、d=0.5など)を試しながら調整する工程が現実には必要です。
また、BGMが乗っている動画では無音検出は機能しません。音量が常に閾値を超えているため、無音区間そのものが存在しないからです。無音カットを使うなら「BGMは編集の最後に付ける」前提でワークフローを組む必要があります。
文字起こしから字幕テロップまでは自動化できるのか?
Whisper APIで文字起こし→srt字幕ファイル生成→ffmpegで焼き込み、という流れで自動化できます。費用は30分動画で約27円です。
手順の流れ
- 文字起こし: 動画の音声をWhisper APIに送り、
response_format=srtを指定してタイムスタンプ付きの字幕ファイル(srt)を受け取る - 字幕の確認・修正: 固有名詞の誤変換などをテキストエディタで直す(ここは人の目が要ります)
- 焼き込み: ffmpegのsubtitlesフィルタで動画に字幕を焼き込む
ffmpeg -i input.mp4 -vf "subtitles=subs.srt" -c:a copy output.mp4
Claude Codeへの指示は「input.mp4 を文字起こしして、srt字幕を作って動画に焼き込んで」で足ります。srtの生成から焼き込みまでを一続きで実行してくれます。
文字起こしの実費はいくらか?
OpenAI公式の料金ページでは、音声の文字起こしは1分あたり0.006ドルです(gpt-4o-transcribe。旧whisper-1と同水準。より安いgpt-4o-mini-transcribeは0.003ドル/分)。1ドル≒150円とした場合の目安は次のとおりです。
| 動画の長さ | API費用($0.006/分) | 円換算の目安 |
|---|---|---|
| 5分 | $0.03 | 約4.5円 |
| 30分 | $0.18 | 約27円 |
| 60分 | $0.36 | 約54円 |
毎日30分動画を処理しても月1,000円弱です。字幕作成を外注したり、編集ソフトで手打ちしたりする時間と比べると、費用がボトルネックになることはまずありません。文字起こしを完全無料にしたい場合はWhisperをローカルで動かす方法もありますが、その分マシンパワーと設定の手間が要ります(別記事で扱う予定です)。
さらに自動化を進めるとどうなるのか?【自作MCPの実録】
私は「Flash Edit」というブラウザ動画エディタを自作していて、これをMCPサーバー経由でClaudeにつなぎ、「文字起こし→字幕確認→指定区間のカット」までを会話だけで実行できるようにしています。ここまでやると、下処理は本当にターミナルとの対話だけで完結します。
自作MCPでブラウザの編集ツールをClaudeから操作する
MCP(Model Context Protocol)は、Claudeに外部ツールの操作を追加できる仕組みです。私の構成では、ブラウザで動くFlash EditとMCPサーバーを通信させて、Claudeとの会話で次のことができます。
- 「この動画を文字起こしして」→ Whisper APIで文字起こし、字幕データを取得
- 「10秒から20秒をカットして」→ 該当区間をエディタ上で削除
- 「このテキストを読み上げ音声にして」→ VOICEVOX(無料の音声合成)でナレーション生成
MCPサーバーの自作にはNode.jsの知識が必要なので、万人向けではありません。ただ「ffmpegをコマンドで叩く」の一段先に、「編集ツールごと会話で操作する」段階があることは、実例として知っておいて損はないと思います。
定型テロップ動画の量産ならRemotionという選択肢もある
データ駆動でテロップ動画を量産したい場合(例: 毎回同じレイアウトで文言だけ差し替える告知動画)は、Remotion(Reactベースの動画生成フレームワーク)が向いています。私の使い分けは「単発の下処理はffmpeg直叩き、同じ型の動画を数十本作るならRemotion」です。ちなみに素材そのものの生成をAIに任せる方法はHiggsfield MCPでClaudeから動画素材を生成する手順に書いています。
結局、時間とお金はいくらかかるのか?【コストまとめ】
処理別に、時間と費用をまとめます(「実測」と記載のものが私の環境での計測値。Windows 10・CPU処理・ffmpeg 8.1、2026年7月時点)。
| 処理 | 時間 | 費用 |
|---|---|---|
| 無音検出(5分・720p) | 5秒(実測) | 0円(ffmpegは無料) |
| 無音カット書き出し(同上) | 29秒(実測) | 0円 |
| 文字起こし(Whisper API) | 数十秒程度(目安) | $0.006/分(30分で約27円) |
| 字幕焼き込み(ffmpeg) | 再エンコード時間のみ | 0円 |
| フレーム補間60fps化(15秒・1080p) | 約6分(実測) | 0円 |
| Claude Code自体 | — | 定額プラン内(Pro以上) |
補足を2点。
- Claude Codeの費用: Anthropic公式の案内どおり、ProまたはMaxプランの定額内で使えます(ClaudeアプリとClaude Codeで利用枠を共有)。動画処理のコマンド組み立て程度なら消費は小さく、私は追加課金なしで運用しています。
- 重い処理は時間がかかる: 表の最後にあるとおり、フレーム補間(minterpolate)のような重いフィルタは15秒の動画でも約6分かかりました(CPU処理の実測)。「ffmpeg=何でも速い」ではなく、処理によって桁が変わります。
自動化しないほうがいい領域はどこか?
「どこを残すか」「どう見せるか」の判断は自動化しないほうがいい、というのが実際に使っている私の結論です。
- カットの取捨選択: 無音カットが削れるのは「物理的な無音」だけです。話が冗長な部分、言い直し、盛り上がらない部分を削る判断は、視聴者を想像できる人間にしかできません。
- テロップの演出: 全文字幕の焼き込みは自動化できますが、「ここだけ大きく見せる」「この間で笑いを取る」といった演出テロップは編集ソフトでの手作業のほうが速くて確実です。
- 色・音の仕上げ: カラーグレーディングや音量の整音は、ffmpegでも一応できますが、結果を目と耳で確認しながらの調整になるため、自動化の恩恵が薄い領域です。
逆に言えば、これらの「クリエイティブな判断」に使う時間を確保するために、無音カット・文字起こし・書き出しという判断不要の下処理を機械に渡す。それがClaude Codeで動画編集を自動化する、いちばん現実的な形だと考えています。
まとめ: まず5分の動画1本で試してみる
- 無音カット・文字起こし・字幕・書き出しの下処理は、Claude Code+ffmpeg+Whisperで自動化できる(5分動画の無音カットは実測約35秒)
- 費用はffmpegが0円、Whisper APIが$0.006/分(30分で約27円)、Claude Codeは定額プラン内
- 完全無音の理想条件と実際の撮影素材は違う。閾値チューニングの工程は残るし、BGM入り動画では無音検出は機能しない
- カット選びと演出は人間の仕事。自動化するのは「判断の要らない下処理」だけ
最初の一歩としては、手元の5分程度の動画1本で無音カットを試すのがおすすめです。ffmpegのインストールと基本コマンドはClaude Codeでffmpegを動かす基本コマンドレシピ集にまとめてあります。
よくある質問
Claude Code自体に動画編集機能はありますか?
ありません。Claude Codeは日本語の指示からffmpegやWhisperなどのツールを操作するコマンドを組み立てて実行する役割です。編集処理そのものはffmpeg等の無料ツールが行います。
プログラミングの知識がなくても使えますか?
ffmpegのコマンドを自分で書く必要はなく、「無音部分をカットして」のような日本語指示で始められます。ただしターミナルの起動とファイルパスの指定など、最低限のPC操作は必要です。
BGMが入っている動画でも無音カットはできますか?
できません。無音検出は音量が閾値を下回る区間を探す仕組みのため、BGMが常に鳴っている動画では無音区間が存在せず機能しません。BGMは編集後に付けるワークフローが前提になります。
費用はどれくらいかかりますか?
ffmpegでの無音カットや字幕焼き込みは無料です。Whisper APIの文字起こしは1分あたり0.006ドル(30分動画で約27円・1ドル150円とした場合)。Claude Code自体はProプラン以上の定額内で使えます。
Premiere ProやDaVinci Resolveの代わりになりますか?
なりません。自動化できるのは無音カット・文字起こし・書き出しなどの下処理です。カットの取捨選択や演出などクリエイティブな判断は、引き続き編集ソフトでの人の作業になります。