【完全自動化】動画編集ソフト不要！AIでMVを自動生成するワークフロー全公開

音楽生成AIや画像生成AIの進化により、個人のクリエイターでも高品質な素材を簡単に用意できるようになりました。
しかし、それらの素材を組み合わせて「ミュージックビデオ（MV）」として完成させるための動画編集作業には、依然として膨大な時間と労力がかかります。

本記事では、動画編集ソフト（Premiere ProやDaVinci Resolveなど）を一切使用せず、
「楽曲生成から画像生成、そして動画の結合とテロップアニメーションまでを完全に自動化するシステム」の裏側を公開します。

実際のシステムの挙動や制作過程については、以下のYouTube動画で詳細に解説していますので、併せてご覧ください。

https://youtu.be/BNh2h1PbEJs

ワークフローの全体像

この完全自動化システムは、大きく分けて以下の3つのステップで構成されています。

楽曲・歌声の生成（Gemini ＆ Suno AI）
歌詞解析と画像生成の自動化（Local LLM ＆ ComfyUI）
動画結合と動的テロップ表示（自作Pythonエンジン）

それぞれの工程でどのような処理が行われているのか、具体的に解説します。

Step 0: Geminiを活用した歌詞の自動生成

楽曲生成（Step 1）に入る前の下準備として、まずはMVの世界観を決める「歌詞」を作成します。一から作詞をするのは非常に労力がかかるため、ここでもテキスト生成AI（GeminiやChatGPTなど）を活用して圧倒的な時短を図ります。

後続のSuno AIで精度の高い楽曲を作るためには、ただポエムを書くのではなく、[Verse]（Aメロ）や[Chorus]（サビ）といった「曲の展開を示すメタタグ」を含んだ構成で出力させることが重要です。

以下は、私が実際にGeminiに指示を出しているプロンプトのテンプレートです。これをコピペして【テーマ】の部分を書き換えるだけで、Suno AIにそのまま流し込める歌詞データが一瞬で完成します。

歌詞生成用プロンプト（Gemini / ChatGPT向け）

以下のテキストをコピーし、テキスト生成AIに入力してください。

J-POPの歌詞を書いてください。ベースは日本語でお願いします。
恋愛ソングではなく、ここ数日私の人生について気づいたことを深く語る内容にしてください。直接的な表現は避けて、でもみんなに伝わるような歌詞とタイトルにして下さい。
タイトルは日本語でお願いします。歌詞を書いた後にタイトルも考えてください。安直にサビ頭でタイトルを使ったりしないでください。普段使わないような硬い言葉（積層など）は入れないでください。
構成は以下のタグをそのまま使用してください（Vocal指定などは追加しないでください）。
[Catchy Riff instrumental]

[Verse1] （4行）
[Verse2] （4行）
[Chorus1] （4行）

[Catchy Riff instrumental]

[Verse3] （4行）
[Verse4] （4行）
[Chorus2] （4行）

[Catchy Riff long instrumental]

[Bridge] （4行）
[Chorus3] （8行）

[Catchy Riff instrumental]

構成は以下のタグをそのまま使用してください（Vocal指定などは追加しないでください）。
【作詞における重要なルール：語呂・リズム・響きについて】
セクション間の字脚（文字数）の完全同期：同じメロディが乗るセクション（Verse1とVerse3、Verse2とVerse4、Chorus1とChorus2）は、対応する行の「文字数」と「全角スペースの位置」を完全に一致させるか、±1文字程度の誤差に収めてください。AIのメロディ生成が崩れるのを防ぐためです。
文字数のコントラスト：Verseは言葉数を少なめ（1行あたり8〜12文字程度）にしてリズミカルに、Chorusは感情のピークとして言葉の密度を高め（1行あたり14〜18文字程度）にしてメロディアスに広がりを持たせてください。
息継ぎとグルーヴ：1行の中に必ず1箇所「全角スペース」を入れて休符（息継ぎ）のポイントを作り、リズムにタメを生み出してください。ただし、単語の途中で不自然に区切ることは避けてください。
脚韻と語尾の多様性（重要）：各行の語尾の母音（あ・い・う・え・お）を揃えることを意識し、音楽的な心地よさを作ってください。ただし、「～さ」「～だ」「～ぜ」などの特定の助詞や語尾を連続して使うことは「同語反復」であり禁止します。体言止め（名詞終わり）や動詞の終止形、形容詞などを自然に織り交ぜ、異なる単語で母音を揃える「本来の韻踏み」を行ってください。「～わ」「～のよ」といった女性語尾も禁止です。
英語によるリズムのアクセント：部分的に英語を入れる場合、説明的な長い英文は絶対に避け、行末やフレーズのキメとして1〜3語程度の短い英単語（例：Resonance, Break, Noiseなど）を配置し、アタック感を強調してください。
言葉選びと情景：「希望」「未来」「答え」といった抽象語を連続させず、「微熱」「箱庭」「ノイズ」「傷跡」のような視覚的・体感的な具体語を交えて、映像が浮かぶようにしてください。

出力された歌詞を確認し、必要に応じて「もう少しサビをキャッチーにして」「2番の歌詞を追加して」と微調整を行えば、Step 1へ進むための完璧な設計図が完成します。

Step 1: Suno AIによる楽曲・歌声生成

最初のステップは、MVの核となる「音楽」の生成です。
歌詞の構成案はGeminiなどのテキスト生成AIを活用して作成し、それを音楽生成AIである「Suno AI」に流し込みます。

Suno AIで意図通りの楽曲（Aメロ〜Bメロ〜サビの展開など）を生成するには、
歌詞の入力欄に「メタタグ」と呼ばれる指示書きを的確に配置することが重要です。

以下に、今回のMV『地図の余白』で使用したプロンプトと歌詞の構造を公開します。
コピー＆ペーストして、ご自身のSuno AI環境でテストしてみてください。

Style of Music（音楽ジャンルの指定）

以下のテキストをコピーして、Suno AIの「Style of Music」欄に貼り付けます。

J-POP, Catchy, Popular Line, Young Japanese cute girl's bright high tone vocal, High quality sound, Clear mixing, Reverb Piano, Symphonic Strings, Melancholic seventh chords, Layered Synth Arrangements, four-on-the-floor, M1 Piano, access Virus Ti , Rich arrangement, Builds up in the chorus,

Step 2: 歌詞解析と画像生成の自動化

楽曲が完成したら、次は映像素材となる画像の生成です。通常であれば、シーンごとに人間がプロンプトを考え、画像生成AIに入力する作業を繰り返す必要がありますが、本ワークフローではこの工程を完全に自動化しています。

タイムラインの自動生成: 生成した音声の波形データを解析し、「どのタイミングで、どの歌詞が歌われているか」
を記述したJSONファイル（タイミングデータ）をスクリプトで自動生成します。
シーンごとのプロンプト自動生成: PCのローカル環境で稼働するLLM（Gemmaなど）が、
歌詞の内容を文脈ごとに読み取り、Stable Diffusion用の英語プロンプトを全シーン分、自動で書き出します。
ComfyUIによる一括生成: 書き出されたプロンプトのリストを、画像生成環境である「ComfyUI」のAPIへ連続送信します。
エラーを防ぐためのVRAM解放処理なども組み込まれており、実行ボタンを押した後はPCを放置しているだけで、全シーンの高画質な画像がフォルダに揃います。

Step 3: 自作エンジンによる動画結合とテロップアニメーション

すべての素材（音声、画像、タイミングデータ）が揃った後の最終工程です。ここでは、私が独自にPythonで開発したGUIアプリケーション「AIpop Visualizer Studio」を使用します。

このソフトの主な機能は以下の通りです。

Kinetic Typography（動的テキスト）: 歌詞のテキストが、指定したタイミングで画面上に自動配置されます。音のキック（低音）に合わせて文字が跳ねたり、被写界深度（Depth）や発光（Glow）のエフェクトをかけることが可能です。
オーディオスペクトラムの自動描画: 音の周波数帯域を解析し、波形アニメーションを合成します。
段階的なレンダリングテスト: 長時間のエンコードエラーを防ぐため、「静止画でのデザイン確認」→「最初の20秒間だけの短尺テスト」→「本番のフル出力」という3段階の出力フェーズを実装しています。

これにより、重い動画編集ソフト（DaVinci Resolveなど）を立ち上げることなく、パラメーターを調整して「実行」ボタンを押すだけで、音と映像が完全に同期したMV（mp4ファイル）が出力されます。