mulmocast で “ジブリ風コミック動画” を作ってみた

receptron/mulmocast-cli の公式ドキュメント を読んで、元マイクロソフトのエンジニア・中島聡さんが公開した オープンソースツール「mulmocast」を触ってみました。CLI だけで 画像生成 → 音声生成 → 動画生成 まで完結できるのが魅力です。備忘録を兼ねて手順と所感をまとめます。


1. インストール

npm install -g mulmocast

2. 事前準備(推奨)

OpenAI の最新モデルを利用するには、本人確認 (KYC) が必要とのこと。

1.OpenAI 個人認証 OpenAI ダッシュボードの Settings › Organization › General から「Verification」を選び、パスポートまたは運転免許証+顔認証で本人確認を行う。

2.API キーを環境変数に設定

touch .env

.env に以下を記入。

OPENAI_API_KEY=sk-XXXX

3. プロンプトを生成する

今回は「ジブリ風のコミック映像」テンプレートを使い、HAGAKURE PROGRAMMING塾の紹介動画を作りたいと思います。 ドキュメントでは

mulmo tool prompt -t ghibli_strips

となっていますが、バージョンの問題なのかこの通り打つとエラーになったので、

mulmo tool prompt -t ghibli_comic

に修正して実行。実行すると、以下のような JSON が生成されます(抜粋)。

{
  "$mulmocast": { "version": "1.1", "credit": "closing" },
  "title": "[TITLE: Brief, engaging title for the topic]",
  "lang": "en",
  "references": [
    {
      "url": "[SOURCE_URL: URL of the source material]",
      "title": "[SOURCE_TITLE: Title of the referenced article, or paper]",
      "type": "[SOURCE_TYPE: article, paper]"
    }
  ],
  "beats": [
    { "text": "[OPENING_BEAT: ...]", "imagePrompt": "[IMAGE_PROMPT: ...]" }
  ],
  "canvasSize": { "width": 1536, "height": 1024 },
  "imageParams": {
    "style": "<style>Ghibli style</style>",
    "images": {
      "presenter": {
        "type": "image",
        "source": {
          "kind": "url",
          "url": "https://raw.githubusercontent.com/receptron/mulmocast-media/refs/heads/main/characters/ghibli_presenter.png"
        }
      }
    }
  }
}

要するに、「以下の条件で他のAIに動画を作らせたいから、このルールに則って動画作成とか音声作成とかのプロンプト考えて既定の形式で出力して」的なことを言っているようです。

4. 動画を生成する

ここからは、並行してブラウザのChatGPTも活用していきます。

1.ChatGPTのチャットで、動画で伝えたい内容 を先に入力(または一緒に作成)しておいて、上記で作成したJsonをチャットに渡します。 今回は、HAGAKUREのWebサイトや過去の活動内容を読ませて、コミュニティ紹介文を作らせておきました。

2.生成された JSON を右上の コピー ボタンでクリップボードにコピー。

3.ターミナルで下記コマンドを実行。

mulmo movie __clipboard

およそ 3 分ほど で画像・音声が生成され、合成まで完了します。

5. 出来上がった動画とコスト

今回の動画で、一本当たりのAPI コストは 約 2 USD。決して高いとは思わないが、計画的に作らないとすごい勢いでクレジット消費してしまいそうです。 (今年に入ってなぜかOpenaiからAPIの無料枠をもらっているので安く上がることを期待したが、画像生成や音声のAPIには適用されていなかった。残念。)

6. メモ

  • チュートリアルのまま作成すると英語になるが、JSON 内の "lang": "en""ja" に変えるだけ で、音声も画像も日本語版になった。

  • 英語版を作ってから字幕を付ける手順もチュートリアル通りで簡単に実装可能。

  • 生成が失敗する場合は テンプレート名のタイプミス を疑う(ghibli_stripsghibli_comic へ修正で解決)。

まとめ

mulmocast は、

  • CLI 一発で 画像 → 音声 → 動画 のパイプラインを自動化

  • JSON テンプレートで 柔軟にカスタマイズ 可能

  • コストも 数ドル規模 で試せる

と、プロトタイプ動画を高速に試作したい時に最適だと思いました。 何しろ実行コマンドはたった2行!!

今後は他のテンプレートや機能も試してみたいと思います。

なお、中島聡さんといえばこちらの書籍

なぜ、あなたの仕事は終わらないのか

は仕事の上で大変参考にさせていただきました。 おすすめです。

nakajima