AIエージェントを理解するカギは「モダリティ変換」にあり：Manusを例に

Manus は「入力⇆出力のモダリティを跨いで変換・合成・自動化」できる機能が豊富です。
下表は “どのメディアを受け取り（In）→ どのメディアを生成・操作するのか（Out）” で整理した網羅リストです。

このような単体のノード（タスク）によるモダリティ変換の組み合わせがAIエージェントのワークフローです。AIエージェントの全体像を理解するには、このノードごとのモダリティ変換を、①分岐させたり（並列繋ぎ）、②連結する（直列繋ぎ）イメージを持つことが不可欠です。

この部分の理解をおろそかにすると、AIエージェントはいつまでたってもあなたにとって「ブラックボックス」のままであり、使いこなせない「なんか難しそうなAI」として残存します。

#	In → Out（モダリティ変換）	主な機能／Playbook名	生成される成果物	代表ユースケース例
1	Text → Image	AI Image Generator（Image）	PNG/JPEG、背景透過ロゴ、商品ビジュアル	新規フードトラックのロゴ・メニュー・Tシャツを一括生成 (TechRadar, TechRadar)
2	Photo / Sketch + Text → Image	Interior Design、Sketch‑to‑Photo Converter	フォトリアル室内 CG、写実化されたイラスト	ラフスケッチを3D調の完成イメージに変換 (Manus)
3	Text → Video	AI Video Generator（Video）	MP4／WebM、シーン分割済みストーリー動画	プロダクト紹介30秒動画をワンプロンプトで生成 (Manus, TechRepublic, PYMNTS.com)
4	Text / PDF → Audio	Text‑to‑Speech（Audio タブ）	MP3／WAV、可変速度ナレーション	書籍 PDF を 3 分のポッドキャストに変換 (X (formerly Twitter), Dupple)
5	Text → Slides	AI Slide Generator	PPTX／Google Slides／PDF	「Q2業績報告」10枚スライドを自動下書き (Manus)
6	Prompt / File → Website	AI Website Builder & Business Canvas Maker	モバイル対応 Webサイト一式	Excel 売上表→公開ダッシュボード付き LP に変換 (Manus, Manus)
7	PDF / Doc → Multi‑lang Audio or Doc	PDF Translator ＋ TTS	多言語 PDF、要約付き音声	技術白書を日本語訳 PDF＋音声ナレーションで配布 (Manus, Dupple)
8	CSV / Data → Visualization	Visualization（Python ノート統合）	折れ線・棒・円グラフ画像、.ipynb	売上 CVS → グラフ＋洞察レポートを生成 (Manus, Business Insider)
9	Web UI（視覚）→ Structured Data / Actions	Cloud‑Browser RPA	自動入力済みフォーム、スクレイプ CSV	Google Maps から店舗情報収集→入力フォーム登録 (Business Insider)
10	Code / Repo → Running App	GitHub Repo Deployment, Chrome Extension Builder	デプロイ済みサーバ／拡張機能 ZIP	FastAPI マイクロサービスを即時ホスティング (Manus)

補足ポイント

なぜ“マルチモーダル”と言えるか

Manus UI 上部のタブ（Image / Slides / Webpage / Visualization / Audio など）がメディア種ごとに専用パイプラインを持ち、異種データ間をシームレスに橋渡しする設計だからです (Manus)。
各 Playbook はワンプロンプトで複数モダリティを連鎖させるため、例①ロゴ→Tシャツ→マーケ施策、例②PDF→要約→音声のような複合成果物が短時間で得られます (TechRadar, TechRadar)。

実務での活用順

静的生成系（#1, #5）で試し、出力品質とクレジット消費を把握
動的メディア系（#3, #4, #6）でブランド素材を量産
データ／RPA系（#8, #9, #10）を業務フローに統合し、本格自動化へ

速度・コストの目安

画像：1枚あたり約30 cr／6‑10 秒
ビデオ：10 秒あたり≈150 cr／1‑3 分
Audio TTS：1 分あたり≈10 cr（女性・男性声を選択可） (Dupple)

これらを組み合わせれば「資料＋動画＋音声＋LP」といったフルパッケージをManus 単体で一気に生成することも可能です。