Manus は「入力⇆出力のモダリティを跨いで変換・合成・自動化」できる機能が豊富です。
下表は “どのメディアを受け取り(In)→ どのメディアを生成・操作するのか(Out)” で整理した網羅リストです。
このような単体のノード(タスク)によるモダリティ変換の組み合わせがAIエージェントのワークフローです。AIエージェントの全体像を理解するには、このノードごとのモダリティ変換を、①分岐させたり(並列繋ぎ)、②連結する(直列繋ぎ)イメージを持つことが不可欠です。
この部分の理解をおろそかにすると、AIエージェントはいつまでたってもあなたにとって「ブラックボックス」のままであり、使いこなせない「なんか難しそうなAI」として残存します。
| # | In → Out(モダリティ変換) | 主な機能/Playbook名 | 生成される成果物 | 代表ユースケース例 |
|---|---|---|---|---|
| 1 | Text → Image | AI Image Generator(Image) | PNG/JPEG、背景透過ロゴ、商品ビジュアル | 新規フードトラックのロゴ・メニュー・Tシャツを一括生成 (TechRadar, TechRadar) |
| 2 | Photo / Sketch + Text → Image | Interior Design、Sketch‑to‑Photo Converter | フォトリアル室内 CG、写実化されたイラスト | ラフスケッチを3D調の完成イメージに変換 (Manus) |
| 3 | Text → Video | AI Video Generator(Video) | MP4/WebM、シーン分割済みストーリー動画 | プロダクト紹介30秒動画をワンプロンプトで生成 (Manus, TechRepublic, PYMNTS.com) |
| 4 | Text / PDF → Audio | Text‑to‑Speech(Audio タブ) | MP3/WAV、可変速度ナレーション | 書籍 PDF を 3 分のポッドキャストに変換 (X (formerly Twitter), Dupple) |
| 5 | Text → Slides | AI Slide Generator | PPTX/Google Slides/PDF | 「Q2業績報告」10枚スライドを自動下書き (Manus) |
| 6 | Prompt / File → Website | AI Website Builder & Business Canvas Maker | モバイル対応 Webサイト一式 | Excel 売上表→公開ダッシュボード付き LP に変換 (Manus, Manus) |
| 7 | PDF / Doc → Multi‑lang Audio or Doc | PDF Translator + TTS | 多言語 PDF、要約付き音声 | 技術白書を日本語訳 PDF+音声ナレーションで配布 (Manus, Dupple) |
| 8 | CSV / Data → Visualization | Visualization(Python ノート統合) | 折れ線・棒・円グラフ画像、.ipynb | 売上 CVS → グラフ+洞察レポートを生成 (Manus, Business Insider) |
| 9 | Web UI(視覚)→ Structured Data / Actions | Cloud‑Browser RPA | 自動入力済みフォーム、スクレイプ CSV | Google Maps から店舗情報収集→入力フォーム登録 (Business Insider) |
| 10 | Code / Repo → Running App | GitHub Repo Deployment, Chrome Extension Builder | デプロイ済みサーバ/拡張機能 ZIP | FastAPI マイクロサービスを即時ホスティング (Manus) |
補足ポイント
なぜ“マルチモーダル”と言えるか
- Manus UI 上部のタブ(Image / Slides / Webpage / Visualization / Audio など)がメディア種ごとに専用パイプラインを持ち、異種データ間をシームレスに橋渡しする設計だからです (Manus)。
- 各 Playbook はワンプロンプトで複数モダリティを連鎖させるため、例①ロゴ→Tシャツ→マーケ施策、例②PDF→要約→音声のような複合成果物が短時間で得られます (TechRadar, TechRadar)。
実務での活用順
- 静的生成系(#1, #5)で試し、出力品質とクレジット消費を把握
- 動的メディア系(#3, #4, #6)でブランド素材を量産
- データ/RPA系(#8, #9, #10)を業務フローに統合し、本格自動化へ
速度・コストの目安
- 画像:1枚あたり約30 cr/6‑10 秒
- ビデオ:10 秒あたり≈150 cr/1‑3 分
- Audio TTS:1 分あたり≈10 cr(女性・男性声を選択可) (Dupple)
これらを組み合わせれば「資料+動画+音声+LP」といったフルパッケージをManus 単体で一気に生成することも可能です。


