AIエージェントを理解するカギは「モダリティ変換」にあり:Manusを例に

Manus は「入力⇆出力のモダリティを跨いで変換・合成・自動化」できる機能が豊富です。
下表は “どのメディアを受け取り(In)→ どのメディアを生成・操作するのか(Out)” で整理した網羅リストです。

このような単体のノード(タスク)によるモダリティ変換の組み合わせがAIエージェントのワークフローです。AIエージェントの全体像を理解するには、このノードごとのモダリティ変換を、①分岐させたり(並列繋ぎ)、②連結する(直列繋ぎ)イメージを持つことが不可欠です。

この部分の理解をおろそかにすると、AIエージェントはいつまでたってもあなたにとって「ブラックボックス」のままであり、使いこなせない「なんか難しそうなAI」として残存します。

#In → Out(モダリティ変換)主な機能/Playbook名生成される成果物代表ユースケース例
1Text → ImageAI Image Generator(Image)PNG/JPEG、背景透過ロゴ、商品ビジュアル新規フードトラックのロゴ・メニュー・Tシャツを一括生成 (TechRadar, TechRadar)
2Photo / Sketch + Text → ImageInterior Design、Sketch‑to‑Photo Converterフォトリアル室内 CG、写実化されたイラストラフスケッチを3D調の完成イメージに変換 (Manus)
3Text → VideoAI Video Generator(Video)MP4/WebM、シーン分割済みストーリー動画プロダクト紹介30秒動画をワンプロンプトで生成 (Manus, TechRepublic, PYMNTS.com)
4Text / PDF → AudioText‑to‑Speech(Audio タブ)MP3/WAV、可変速度ナレーション書籍 PDF を 3 分のポッドキャストに変換 (X (formerly Twitter), Dupple)
5Text → SlidesAI Slide GeneratorPPTX/Google Slides/PDF「Q2業績報告」10枚スライドを自動下書き (Manus)
6Prompt / File → WebsiteAI Website Builder & Business Canvas Makerモバイル対応 Webサイト一式Excel 売上表→公開ダッシュボード付き LP に変換 (Manus, Manus)
7PDF / Doc → Multi‑lang Audio or DocPDF Translator + TTS多言語 PDF、要約付き音声技術白書を日本語訳 PDF+音声ナレーションで配布 (Manus, Dupple)
8CSV / Data → VisualizationVisualization(Python ノート統合)折れ線・棒・円グラフ画像、.ipynb売上 CVS → グラフ+洞察レポートを生成 (Manus, Business Insider)
9Web UI(視覚)→ Structured Data / ActionsCloud‑Browser RPA自動入力済みフォーム、スクレイプ CSVGoogle Maps から店舗情報収集→入力フォーム登録 (Business Insider)
10Code / Repo → Running AppGitHub Repo Deployment, Chrome Extension Builderデプロイ済みサーバ/拡張機能 ZIPFastAPI マイクロサービスを即時ホスティング (Manus)

補足ポイント

なぜ“マルチモーダル”と言えるか

  • Manus UI 上部のタブ(Image / Slides / Webpage / Visualization / Audio など)がメディア種ごとに専用パイプラインを持ち、異種データ間をシームレスに橋渡しする設計だからです (Manus)。
  • 各 Playbook はワンプロンプトで複数モダリティを連鎖させるため、例①ロゴ→Tシャツ→マーケ施策、例②PDF→要約→音声のような複合成果物が短時間で得られます (TechRadar, TechRadar)。

実務での活用順

  1. 静的生成系(#1, #5)で試し、出力品質とクレジット消費を把握
  2. 動的メディア系(#3, #4, #6)でブランド素材を量産
  3. データ/RPA系(#8, #9, #10)を業務フローに統合し、本格自動化へ

速度・コストの目安

  • 画像:1枚あたり約30 cr/6‑10 秒
  • ビデオ:10 秒あたり≈150 cr/1‑3 分
  • Audio TTS:1 分あたり≈10 cr(女性・男性声を選択可) (Dupple)

これらを組み合わせれば「資料+動画+音声+LP」といったフルパッケージをManus 単体で一気に生成することも可能です。