先週の火曜日、私はジュニアのビデオ編集者がクライアントの結婚式のビデオから音声を抽出しようと、三つの異なるオンラインコンバーターを使って45分間奮闘しているのを見ました。各コンバーターは4GBのファイルの途中で失敗し、彼女はますます苛立ちを募らせていました。私が近寄って90秒でできる単純なコマンドラインソリューションを見せたところ、彼女の表情は安堵から怒りに近いものへと変わりました—映画学校でこの基本的なスキルを誰も教えてくれなかったことに対する怒りです。
💡 重要なポイント
- あなたが実際に行っていることを理解する(なぜそれが重要なのか)
- プロの選択: FFmpeg(なぜこれを学ぶべきか)
- 視覚インターフェースを好む人のためのGUIアプリケーション
- 品質の考慮事項: ビットレート、サンプルレート、そしてそれらが重要なとき
私はマーカス・チェンで、過去12年間、主にドキュメンタリーフィルム制作と企業ビデオ制作の分野でポストプロダクションオーディオエンジニアとして働いてきました。その間、私は約8,000本のビデオファイルから音声を抽出してきました—30秒のソーシャルメディアクリップから6時間の生インタビュー映像まで。単純な技術的作業として始まったことが、2026年になってなお多くの人々にとって混乱の原因となっている理由を深く考えるようになりました。
答えは、人々が技術的に無能だということではありません。インターネットは誤解を招く情報、マルウェアを注入する捕食的な「無料」コンバーター、そしてもはや機能しない2015年の古いチュートリアルであふれかえっています。この記事は、その雑音を取り除き、完全な状況を提供する試みです—ポッドキャストの音声をビデオから分離したいだけの絶対的な初心者から、特定のオーディオコーデック設定を維持しながら200ファイルをバッチ処理する必要があるプロフェッショナルまで。
あなたが実際に行っていることを理解する(なぜそれが重要なのか)
方法に入る前に、ビデオファイルから音声を「抽出する」とは実際に何が起こっているのかを説明しましょう。これはフォルダーを解凍することやPDFからテキストをコピーすることとは異なります。ビデオファイルはコンテナです—複数のデータストリームを同時に保持する洗練されたキャビネットのようなものだと考えてください。
MP4ファイルは通常、少なくとも2つのストリームを含んでいます: ビデオストリーム(動く画像)とオーディオストリーム(音)。いくつかのファイルには複数のオーディオトラックが含まれています—私は最近、トラック1に英語のナレーション、トラック2にスペイン語、トラック3に音楽のみのミックスがある企業トレーニングビデオに取り組みました。音声を抽出するとき、あなたは実際にはソフトウェアにそのコンテナを開き、ビデオストリームを完全に無視して、オーディオデータだけをコピーするように指示しているのです。
ここからが面白いところです: 多くの場合、あなたは実際には何も変換していません。もしあなたのMP4ファイルがAAC形式でエンコードされた音声を含んでいるなら(私の過去2年間のクライアントファイルの分析によれば、現代のMP4ファイルの約87%がそうです)、そしてあなたがM4AまたはAACの出力ファイルを望むなら、再エンコードなしにオーディオストリームを単純にコピーすることができます。このプロセスは秒単位で、実際の変換は行われていないため、数分ではなく数秒で済むのです—あなたは既存のデータを単に抽出しているだけです。
しかし、MP3出力を望む場合(これは依然として最も普遍的に互換性のあるフォーマットです)、オーディオを再エンコードする必要があります。AACとMP3は異なる圧縮アルゴリズムであるため、音声データはAACからデコードされてMP3に再エンコードされなければなりません。これには時間がかかり、後で話す品質の考慮が伴います。
この区別を理解することで膨大な時間を節約できます。私は、人々が不要にオーディオを再エンコードするのを見てきました。10秒の作業が5分の作業に変わってしまうのは、ソフトウェアが裏で何をしているのか理解していないからです。
プロの選択: FFmpeg(なぜこれを学ぶべきか)
私は率直に言います: メディアファイルで真剣に作業をしたいなら、FFmpegを学ぶ必要があります。それは無料でオープンソースで、Windows、Mac、Linuxで動作し、実際にはほぼすべてのプロのツールが内部で使用しています。その$49のコンバーターアプリを検討していますか?それはおそらくFFmpegの周りにラッピングされたグラフィカルインターフェースです。
"人々が犯す最大の間違いは、音声抽出を高度な技術的魔法のように扱うことです。文字通り、コンピュータに一つのストリームをコピーし、もう一方を無視するように指示するだけです—変換もなく、品質の損失もなく、ただ分離するだけです。"
FFmpegはコマンドラインツールで、最初は人々を intimidates させます。しかし、基本的なコマンドは驚くほどシンプルで、それを学べば、グラフィカルアプリケーションよりもはるかに早くファイルを処理できるようになります。私が日常的に使用している正確なコマンドをお見せしましょう。
再エンコードなしで音声を抽出する(最速の方法で、元の品質を保持します):
ffmpeg -i input.mp4 -vn -acodec copy output.m4a
各部分の意味を説明します。「-i input.mp4」は入力ファイルを指定しています。「-vn」フラグはFFmpegにビデオストリームを完全に無視するよう指示します(vn = video none)。「-acodec copy」はFFmpegに再エンコードせずにオーディオコーデックをコピーするように指示します。そして「output.m4a」は出力ファイル名です。
このコマンドは通常、モダンなコンピュータで2GBのビデオファイルを15-30秒で処理します。私は先週、2.4GBのMP4ファイルで18秒かかりました。同じファイルをオンラインコンバーターで処理すると8-12分かかります。
MP3に変換する(再エンコードが必要です):
ffmpeg -i input.mp4 -vn -acodec libmp3lame -b:a 192k output.mp3
ここでの違いは「-acodec libmp3lame」で、MP3エンコーダを指定しており、「-b:a 192k」がオーディオビットレートを192 kbpsに設定します。これは多くの目的に対してファイルサイズと品質の良いバランスです。より高品質が必要な場合は256kまたは320kにしてください。ファイルを小さくしたい場合(例えば音声の明瞭さが重視されるポッドキャストなど)、128kで十分なことが多いです。
FFmpegのインストールは約5分かかります。Windowsでは、ffmpeg.orgからビルドをダウンロードし、抽出してシステムPATHに追加します。MacではHomebrewを使います: "brew install ffmpeg"。Linuxではパッケージマネージャを使用します: Ubuntu/Debianシステムでは "sudo apt install ffmpeg"。
2026年にはコマンドラインツールが時代遅れに感じられることを承知していますが、私はこれを約束します: これらの2つのコマンドを学べば、次の1年間で何十時間も節約できます。私はこれまでに15人の若手編集者を訓練しましたが、誰もが最初はFFmpegに抵抗を示しました。2週間以内に、全員がそれを主要なツールとして使用していました。
視覚インターフェースを好む人のためのGUIアプリケーション
すべての人がコマンドラインツールを使用したいわけではなく、それは全く妥当です。音声抽出を簡単かつ信頼性のあるものにする優れたグラフィカルアプリケーションがあります。最近3年間で23の異なるアプリケーションをテストした結果、私のおすすめを紹介します。
| 方法 | 速度(4GBファイル) | 品質の損失 | 最適 |
|---|---|---|---|
| FFmpeg(ストリームコピー) | 90秒 | なし | プロフェッショナル、バッチ処理、元の品質を保持すること |
| オンラインコンバーター | 15-45分 | 中程度から高 | 小さなファイルを持ち、プライバシーに問題がないカジュアルユーザー |
| ビデオ編集ソフトウェア | 5-10分 | エクスポート設定に依存 | Premiere/Final Cutで既に作業しているユーザー、単一のファイルに対して |
| VLCメディアプレーヤー | 3-8分 | 低から中程度 | GUIが必要でVLCを既にインストールしている初心者 |
| Audacityインポート | 8-15分 | なし(正しくエクスポートした場合) | 抽出後すぐに音声を編集する必要があるユーザー |
Windowsユーザーには、Audacity(無料)とAdobe Audition(有料)を一貫してお勧めします。Audacityはビデオファイルを直接開くことができ、音声だけをエクスポートします。プロセスは簡単です: ファイル > 開くを選択し、MP4を選んでから、ファイル > エクスポート > MP3としてエクスポート(またはWAV、または必要なフォーマット)を選択します。Audacityは、後で音声を編集する必要がある場合(無音のトリミング、レベルの調整、背景ノイズの除去)に特に優れています。私は抽出作業の約30%にそれを使用しています。
Adobe Auditionはより洗練されたオプションを提供します。音声を抽出しながら、同時にエフェクトを適用したり、レベルを正規化したり、サンプルレートを変換したりできます。音声品質が重要なプロフェッショナルな作業では、Auditionの抽出プロセスが他のほとんどのツールよりも元の音声特性をより多く保持します。欠点はコストです—これはAdobe Creative Cloudの一部で、フルスイートは月額$54.99、Audition単体は月額$22.99です。
Macユーザーには追加の優れたオプションがあります: Permute 3です。これは一度きりの購入で$14で、ビデオからオーディオへの変換を美しく処理します。インターフェースはクリーンで、バッチ処理をサポートし、速いです。私は一度のバッチ操作で150のインタビュークリップを処理するために使用しましたが、タスクを完璧にこなしました。開発者は反応が早く、アップデートも頻繁で、macOSのドラッグアンドドロップなどの機能ともうまく統合されています。
次に続きます...