AgentLoop とは
AgentLoop は、Alibaba Cloud が提供する大規模言語モデル(LLM)アプリケーション向けの、フルライフサイクル対応のデータ可観測性およびデータフライホイールプラットフォームです。企業が AI エージェントに対して持続可能で自己進化するフィードバックループを構築するための支援を行います。AgentLoop は、トレース、ログ、メトリクス、会話といった主要なランタイムデータを活用し、データ収集・観測から視覚的な問題特定、評価・実験、評価セットやポストトレーニング用データセット、長期記憶の作成に向けたデータ精製まで、エンドツーエンドの機能を提供します。これにより、オンラインパフォーマンスが継続的に向上します。
AgentLoop は AI エージェントそのものに焦点を当て、持続可能かつ自己進化するループを確立します。これは従来型のモニタリングツールではありません。むしろ、ランタイムデータを「データフライホイール」へと変換し、信頼性、安定性、パフォーマンスの継続的改善を推進します。これにより、本番環境においてエージェントの反復的・検証可能・スケーラブルな改善が実現します。
プロダクトの位置付け
AgentLoop は、「AI エージェントのパフォーマンス最適化プラットフォーム」として位置付けられており、エンドツーエンドの可観測性、評価、モニタリング機能を提供します:
すべての呼び出しについて、プロンプト、モデル出力、レイテンシ、トークン消費量、コストを追跡します。
カスタム評価ルールの適用、人間によるフィードバックの収集、A/B テストの実行、プロンプトバージョンの管理を行います。
主流のフレームワークとの統合およびビジュアルダッシュボードを活用し、動作に関するリアルタイムなインサイトを得て、課題の効率的なデバッグ、プロンプトエンジニアリングの最適化、推論コストの制御を実現します。
LLM アプリケーションの本番環境における信頼性、反復効率、ビジネス価値の向上を図ります。
主な機能
1. エンドツーエンドの可観測性
モデルアプリケーション監視:AI アプリケーションに接続して、モデルアプリケーション一覧、アプリケーション詳細、トポロジー関係を表示します。
トレース分析:スパン一覧、トレース一覧、散布図、エンドツーエンド集約、エンドツーエンドトポロジー、遅延/エラー発生トレースの分析を提供します。
多次元メトリクス:リクエスト数、エラー数、レイテンシ、トークン使用量、セッション数、ユーザー数などのコアメトリクスをカバーします。
シナリオベースの分析:埋め込み分析、取得拡張(RAG)、ツール呼び出し、メソッド呼び出しといった AI 特有の操作の分析をサポートします。
2. データ資産管理(Dataset)
AgentLoop の Dataset は、AI シナリオ向けに設計された新しいタイプのデータストレージです。読み取り専用のログを、完全な CRUD 操作、柔軟なスキーマ、ベクトル検索、多次元分析機能を備えた管理可能なデータ資産へと変換します。
カスタムスキーマ:`text`、`long`、`double`、`json` など複数のフィールドタイプをサポートします。`json` 型では、ネストされたサブフィールドのインデックス化が可能です。
完全な CRUD:標準 SQL を使用して `INSERT`、`UPDATE`、`DELETE` 操作を実行し、データの修正および進化を実現します。
多次元検索:全文検索、意味検索、SQL 分析を組み合わせた 4 種類の混在・選択型クエリモードを提供します。
バージョンのトレーサビリティ:各データ入力には自動的に一意の ID が割り当てられ、トレース、エクスポート、回帰テストをサポートします。
3. 評価フレームワーク(Evaluation)
評価フレームワークは、大規模モデルの非決定性という工学的課題に対処するため、開発者に計測可能・再現可能・自動化された品質ガバナンスシステムを提供します:
不確実性の定量化:曖昧な意味的フィードバックを、正確な統計的メトリクスへと変換します。
アジャイル反復の推進:自動評価により、実験サイクルを週単位から分単位へと短縮します。
デプロイメントの信頼性確保:バグ修正時の機能低下を防ぐため、標準化された回帰テストセットを確立します。
事前構築済みの評価子(Evaluator):
カテゴリ | 評価子 | 説明 |
汎用シナリオ |
| モデル出力に攻撃的・有害・不適切な言語が含まれているかどうかを検出します。 |
| モデル出力がセキュリティおよびコンプライアンス要件を満たしているかどうかを評価します。 | |
| モデル出力が論理的かつ一貫性があるかどうかを評価します。 | |
| モデル出力がユーザーの質問に回答するために必要な情報を網羅しているかどうかを評価します。 | |
RAG 評価 |
| 取得されたコンテキストがユーザーの質問とどれだけ適合しているかを評価します。 |
| モデルが生成した回答がユーザーの質問に直接応じているかどうかを評価します。 | |
| 取得結果における情報の豊かさおよび多様性を評価します。 | |
| 取得されたコンテキスト内に冗長または重複するコンテンツが存在するかどうかを検出します。 | |
ツール利用 |
| モデルがユーザーのリクエストに対処するために正しいツールを選択したかどうかを評価します。 |
| モデルがツールに渡すパラメーターが正確かつ完全であるかどうかを評価します。 | |
エージェント評価 |
| エージェントの実行軌道全体の品質および合理性を評価します。 |
| エージェントが実行中に選択したツールの合理性を評価します。 | |
| エージェントのツール呼び出しの成功確率を評価します。 |
カスタム評価子:LLM-as-a-Judge を活用したカスタム評価プロンプトを作成できます。これにより、カスタムのディメンション、基準、重みに基づいて、AI アプリケーション出力の定量的スコアリングおよび深層診断が可能になります。
4. 実験およびプレイグラウンド
実験記録およびプレイグラウンドは、プロンプトエンジニアリングおよびデバッグから大規模自動評価に至るまでの完全なフィードバックループを提供します:
実験プラン:ビジネスベースラインを確立し、モデルサービス、プロンプトテンプレート、データセット、評価子の組み合わせを保存するための実験プランの作成および管理を行います。
プレイグラウンド:ビジュアルインターフェイスで複数の実験セットを設定し、推論パラメーター(例:`Temperature`、`Top-p`)をリアルタイムで調整し、単一インスタンスまたはバッチ検証のためにデータソースを呼び出します。
実験記録:実験実行の資産ライブラリです。各タスクのスナップショット(モデルサービスの詳細、トークン消費量、初回トークン到達時間(TTFT)、評価子による定量的スコアなど)を記録します。
比較分析:2~5 件の実験記録を並列比較できる多次元回帰分析ツールです。評価メトリクスの傾向、構成パラメーターの差異、サンプルレベルの意味的比較をカバーします。
5. 長期記憶(Memory)
AgentLoop Memory は AI エージェントのコア記憶層であり、永続的な記憶機能を提供します:
セッション間の一貫性維持:会話履歴、タスクステータス、意思決定の根拠などの重要な情報を永続的に保存します。これらの情報は効率的に取得され、新しいインタラクションのコンテキストとして注入されることで、モデルに適切な背景を提供します。
高度に適応可能なパーソナライゼーションの実現:ユーザーのフォーマット要件やコミュニケーションスタイルといったプリファレンス、および行動パターンや長期目標といった履歴情報を体系的に記録します。これにより、モデルは高度にカスタマイズされた出力を生成できます。
過去の情報に基づく深層的推論のサポート:AI エージェントが記憶・学習・進化することを可能にすることで、インタラクションの連続性および知能を高めます。
記憶戦略:
事実(Facts):特定の事実、出来事、ユーザー関連のプリファレンスを抽出します。
エピソード(Episodic):特定の出来事やインタラクション体験を記録・再生し、何が起こったか、いつ、どこで起こったかを文書化します。
要約(Summary):ユーザーインタラクション内容を凝縮し、鍵となる情報を抽出して、簡潔かつ一貫性のある意味表現を形成します。
カスタム戦略:ユーザーが定義する抽出戦略です。
メリット
1. エンドツーエンドのフィードバックループ
AgentLoop は単独のモニタリングツールではなく、AI アプリケーションの全ライフサイクルをカバーするデータフライホイールプラットフォームです:
データ収集:トレース、ログ、メトリクス、会話などのランタイムデータを自動的に収集します。
視覚的観測:豊富なダッシュボードおよびトレース分析を提供し、課題を迅速に特定します。
評価および実験:プロンプトチューニング、モデル比較、自動評価をサポートします。
データ精製:高品質なデータを評価セットおよびポストトレーニング用データセットへと精製します。
継続的最適化:長期記憶およびデータフライホイールを通じて、オンラインパフォーマンスを向上させます。
2. エンタープライズグレードのセキュリティおよびコンプライアンス
マルチテナントデータ隔離:ユーザーのデータを厳密に分離し、他のテナントからは見えない状態に保つことで、データ隔離を確保します。
完全な監査ログ:すべての作成・読取・更新・削除(CRUD)操作が記録され、エンタープライズのコンプライアンスおよび監査要件を満たします。
データセキュリティ:Alibaba Cloud の成熟したセキュリティシステムを活用し、データ暗号化およびアクセス制御などの機能を提供します。
3. 自動スケーリングおよび高可用性
自動スケーリング:業務負荷に応じてリソースを手動介入なしで自動的に調整します。
高同時実行数対応:トラフィックピーク時でも、データの書き込みおよび取得をタイムリーに実行します。
大規模データストレージ:Log Service(SLS)の基盤ストレージを活用し、ペタバイト規模のデータストレージおよび秒単位のクエリをサポートします。
4. 緊密な連携およびオープンエコシステム
フレームワーク統合:LangChain や LlamaIndex などの主流 AI フレームワークと深く統合されます。
SDK サポート:Python や Java など、複数のプログラミング言語向け SDK を提供します。
オープン API:カスタム統合および拡張のための完全な API セットを提供します。
MCP Server:既存のエージェントフレームワークとのシームレスな統合を実現するための MCP Server アクセスをサポートします。
5. コスト最適化および FinOps
トークン消費量分析:各実験およびオンライン呼び出しによって発生するトークン消費量および実際のコストを正確に算出します。
コスト最適化の提案:意思決定者が最もコスト効率の高いモデルの組み合わせを選択できるよう、定量的データを提供します。
リソース使用量の監視:ストレージおよびコンピューティングリソースの使用量を監視し、無駄を防止します。
基本概念
Dataset
Dataset は、AgentLoop が AI シナリオ向けに設計した新しいタイプのデータストレージであり、AI アプリケーションデータの全ライフサイクルを管理するためのコアキャリアです。
フィールドタイプ
タイプ | 説明 | オプション機能 | 例 |
text | テキスト型 | chn:中国語の形態素解析を有効化。embedding:ベクトルインデックスを有効化。 | question、answer |
long | 長整数型 | ― | input_tokens、latency_ms |
double | 浮動小数点型 | ― | score、confidence |
json | ネストされた JSON 型 | json_keys:サブフィールドのインデックスを定義。 | metadata、scores |
組み込みフィールド
フィールド | タイプ | 説明 |
id | text | システムが自動生成する一意のプライマリキーです。UPDATE/DELETE 操作ではこのフィールドを使用する必要があります。 |
Evaluation
Evaluation は AgentLoop の品質ガバナンスシステムのコアです。自動評価を通じて、曖昧な「意味的感覚」を正確な「統計的メトリクス」へと変換します。
評価タスクの構成要素
データソース:トレース/スパン、ログ(Logstore)、データセットの 3 種類のデータソースをサポートします。
評価子(Evaluator):LLM-as-a-Judge を基盤とする自動スコアリング機構です。
サンプリング戦略:評価のカバレッジとコストのバランスを取るために、サンプリング率および最大サンプル数を設定できます。
実行戦略:新規データに基づく継続的評価および既存データに基づく評価の 2 モードをサポートします。
評価子の種類
事前設定評価子:システムに組み込まれた汎用評価子です。毒性、セキュリティ、コヒーレンス、完全性などのディメンションをカバーします。
RAG 評価子:取得拡張(RAG)シナリオ向けに設計された評価子です。
ツール利用評価子:AI エージェントのツール選択およびパラメーター渡しの正確性を評価します。
エージェント評価子:AI エージェントの実行トレース、ツール選択の妥当性、呼び出し成功率を評価します。
カスタム評価子:ビジネスシナリオに基づいたカスタム評価プロンプトを作成できます。
Experiment
Experiment は、AgentLoop が提供するプロンプトエンジニアリングおよびモデルパフォーマンス最適化のためのツールです。複数の構成セットでのバッチ実験実行および包括的な比較分析をサポートします。
実験プラン
実験プランはビジネスベースラインを確立します。実験のトレーサビリティおよび環境の一貫性を確保するため、モデルサービス、プロンプトテンプレート、データセット、評価子の組み合わせを保存します。
プレイグラウンド
プレイグラウンドは実験実行エンジンです。以下の機能をサポートします:
ワンクリックで実験プランから構成を読み込みます。
バッチ推論タスクを実行します。
LLM Judge からの評価結果を即時に確認できます。
推論パラメーター(例:Temperature、Top-p)をリアルタイムで調整できます。
実験記録
実験記録はタスク実行ログおよび結果のスナップショットです。以下を含みます:
モデルサービスの詳細。
トークン消費量(コスト)。
初回トークン到達時間(TTFT)。
評価子による定量化されたスコア。
タスク実行ステータス。
比較分析
比較分析は意思決定支援ツールです。以下の機能をサポートします:
2~5 件の実験記録を選択して並列比較します。
ベースライングループを設定し、精度、所要時間、コストなどのディメンションで実験グループの差分(デルタ)を算出します。
テキストレベルの差異を強調表示し、出力の変化を迅速に特定します。
Memory
AgentLoop MemoryStore は AI エージェントのコア記憶層であり、永続的な記憶機能を提供します。
MemoryStore
MemoryStore は記憶データのストレージコンテナです。AI エージェントまたはアプリケーションの短期記憶および長期記憶のすべての情報を格納します。
記憶戦略
記憶戦略は、短期記憶から長期記憶への情報処理方法を決定する一連の記憶抽出ルールです:
戦略 | 説明 |
Facts | 特定の事実、出来事、ユーザー関連のプリファレンスを抽出します。 |
Episodic | 特定の出来事またはインタラクション体験を記録・再生します。何が起こったか、いつ、どこで起こったかを含みます。 |
Summary | ユーザーインタラクション内容を凝縮・要約します。鍵となる情報を抽出し、簡潔かつ一貫性のある意味表現を形成します。 |
Custom strategy | ユーザーが定義する抽出戦略です。 |
Event
Event は短期記憶の基本単位であり、クライアントから送信される生データの 1 パーツに対応します。
短期記憶
短期記憶は会話を保存し、直近のコンテキストを追跡します。これは単一イベントのコンテキストを記録するためのコア単位であり、主にセッション内のリアルタイムコンテキストの一貫性および連続性を維持するために使用されます。
長期記憶
長期記憶は抽出された洞察を保存します。これは、重要なユーザー情報、行動パターン、ビジネス知識を永続的に保存するためのコア機能モジュールであり、セッションおよび時間の経過にわたってコンテキスト認識およびパーソナライズされたサービスをサポートします。
Model application
Model application は AgentLoop のコア可観測オブジェクトであり、AI アプリケーションのインスタンスを表します。
アプリケーション詳細のディメンション
インスタンス概要:リクエスト数、エラー数、所要時間、インスタンス数、CPU 使用率。
関連インスタンス:アプリケーションインターフェイス、Kubernetes クラスター、インフラストラクチャー、上流/下流依存関係。
関連トポロジー:アプリケーションに関連する上流および下流のトポロジーネットワーク。
アプリケーション概要:モデル呼び出し数、トークン使用量、トレース数、スパン数、セッション数、ユーザー数。
パフォーマンス分析:モデル呼び出し数、エラー数、所要時間の傾向。
トークン分析:トークン使用量、セッションあたりの平均トークン使用量、リクエストあたりの平均トークン使用量。
運用分析:埋め込み分析、取得拡張、ツール呼び出し、メソッド呼び出し。
トレース分析:スパン一覧、トレース一覧、散布図、フルリンク集約、フルリンクトポロジー。
CloudMonitor 2.0 との関係
AgentLoop は、全体的な CloudMonitor 2.0 プロダクトと深く統合されています:
統一コンソール:CloudMonitor 2.0 コンソール内に AI アプリケーションの可観測性専用のエントリポイントを提供します。
データ相互運用性:AI アプリケーションの可観測性データをインフラストラクチャーモニタリングデータと統合し、フルスタック可観測性を実現します。
アラート統合:AI アプリケーションのメトリクスに基づいたアラートルールの設定をサポートし、CloudMonitor のアラートシステムと統合します。
統一権限:CloudMonitor 2.0 の Resource Access Management(RAM)権限システムを再利用し、統一された身分認証およびアクセス制御を実現します。
SLS との関係
Log Service(SLS)は基盤インフラストラクチャーとして機能し、基本的なデータストレージおよびコンピューティング機能を提供します:
Logstore:生ログデータを格納します。
Metricstore:メトリクスデータを格納します。
AgentLoop は SLS を基盤として、ビジネス抽象化および上位レベルの機能を提供します。これにより、基盤のストレージ詳細を管理することなく、アプリケーションに集中できます。
ユースケース
シナリオ 1:AI アプリケーションのパフォーマンスモニタリングおよびトラブルシューティング
説明:ある企業は、AI 顧客サービスアプリケーションのパフォーマンスをリアルタイムでモニタリングする必要があり、アプリケーションの本番稼働後に課題を迅速に特定・解決できるようにしたいと考えています。
AgentLoop のソリューション:
AgentLoop SDK を使用して AI アプリケーションを統合し、トレース、ログ、メトリクスデータを自動的に収集します。
モデルアプリケーションページで、リクエスト数、エラー数、レイテンシなどのリアルタイムメトリクスを確認します。
トレース分析を活用して、特定の遅延または失敗したリクエストを特定します。
トークン分析を活用してコストをモニタリングします。
価値:障害の特定にかかる平均時間を数時間から数分に短縮し、ビジネス損失を最小限に抑えます。
シナリオ 2:プロンプトエンジニアリングの最適化およびパフォーマンス評価
説明:AI アプリケーション開発チームは、モデル出力の品質向上のため、プロンプトを継続的に最適化する必要があります。
AgentLoop のソリューション:
プレイグラウンドで複数のプロンプト実験セットを設定します。
データセットを使用してバッチ検証を実行します。
評価子を活用して結果を自動スコアリングし、プロンプトのパフォーマンスを定量化します。
比較分析を活用して最適なプロンプトバージョンを特定します。
最適化されたプロンプトを実験プランに組み込みます。
価値:プロンプトの反復サイクルを数週間から数日に短縮し、モデル出力の品質を 30%以上向上させます。
シナリオ 3:モデルバージョンアップグレードの回帰テスト
説明:ある企業は基盤となるモデルのバージョンをアップグレードする予定であり、新バージョンのパフォーマンスを評価する必要があります。
AgentLoop のソリューション:
データセットを使用して評価ベンチマークセットを構築します。
旧バージョンおよび新バージョンのモデルを同時に実行する比較実験を作成します。
評価子を活用して、複数のディメンションでパフォーマンスを比較します。
比較分析を活用してパフォーマンスの劣化を特定します。
データに基づいてアップグレードの判断を行います。
価値:無計画なアップグレードによるビジネスリスクを回避し、モデルアップグレードプロセスの安定性を確保します。
シナリオ 4:不良ケースの管理およびデータフライホイール
説明:AI アプリケーションの本番稼働後、多くの不良ケースが発生し、これらを体系的に管理・最適化する必要があります。
AgentLoop のソリューション:
評価タスクを活用して低スコアのサンプルを自動的に特定します。
不良ケースをデータセットにインポートして手動でアノテーションします。
アノテーション後のデータを更新し、最適化の提案を生成します。
高品質なデータを訓練データセットにコンパイルします。
データフライホイールを活用して、モデルパフォーマンスを継続的に最適化します。
価値:データ駆動型の継続的最適化ループを確立し、AI アプリケーションを使用するほど賢くします。
シナリオ 5:AI エージェントの長期記憶の構築
シナリオ:ユーザーのプリファレンスおよびインタラクション履歴を記憶するパーソナライズされた AI アシスタントを構築しています。
AgentLoop のソリューション:
MemoryStore を作成します。
事実(Fact)、エピソード(Episode)、要約(Summary)などの記憶戦略を設定します。
SDK を使用して会話記録を追加します。
会話中に関連する記憶を取得し、コンテキストに注入します。
記憶に基づいたパーソナライズされた応答を提供します。
価値:ユーザー体験およびインタラクションの一貫性を向上させ、AI アシスタントがユーザーを真に「理解」できるようにします。
ベストプラクティス
プラクティス 1:完全な評価システムの確立
評価メトリクスの定義:ビジネスシナリオに基づき、精度、セキュリティ、コンプライアンスなどのコア評価メトリクスを決定します。
評価セットの構築:Dataset を使用して、コアビジネスシナリオをカバーする評価データセットを構築します。
評価タスクの設定:オンラインデータ品質をモニタリングするため、継続的に実行される評価タスクを作成します。
アラートしきい値の設定:主要な評価メトリクスに対してアラートを設定し、品質問題を迅速に特定します。
プラクティス 2:プロンプトバージョン管理の標準化
実験プランによるプロンプト管理:各ビジネスシナリオごとに個別の実験プランを作成します。
バージョン命名規則の遵守:v1.0.0-basic のようなセマンティックバージョン番号を使用します。
変更の記録:実験の説明欄に、各変更の理由および影響を文書化します。
定期的な回帰テスト:新バージョンが劣化しないことを保証するため、定期的に過去の実験を実行します。
プラクティス 3:データフライホイールの構築
データ収集:AI アプリケーションからすべてのランタイムデータを収集します。
データクリーニング:評価タスクを活用して、問題のあるデータを自動的に特定およびラベル付けします。
データ保存:高品質なデータを Dataset に保存し、企業のデータ資産を構築します。
データ活用:データをモデルファインチューニング、プロンプト最適化、ナレッジベースの更新に活用します。
プラクティス 4:コスト最適化
トークン消費量のモニタリング:トークン分析を活用して、各アプリケーションのコスト消費量をモニタリングします。
モデルの選択:実験を通じて、異なるモデルのコスト効率を比較します。
サンプリング戦略の活用:非コアデータについては、サンプルベースの評価を活用してコストを削減します。
リソースのクリーンアップ:未使用のデータセットおよび実験記録を定期的に削除します。