AI Guardrails とは - Content Moderation - Alibaba Cloud ドキュメントセンター

AI Guardrails は、Alibaba Cloud が人工知能システム向けに設計したセキュリティ保護製品です。高可用性と高精度のリスク検出ソリューションを通じて、AI システムがユーザーの指示に応答する際に、安全でコンプライアンスに準拠した信頼性の高いサービスを提供できるようにします。

特徴

AI アプリケーションと AI エージェントの開発および運用において、開発者と AI 企業は、コンプライアンスリスク、データ漏洩リスク、プロンプトインジェクション攻撃、ハルシネーション、ジェイルブレイクなど、セキュリティの脅威に直面することがよくあります。これらの AI リスクは、通常のビジネスオペレーションを脅かすだけでなく、企業に重大なコンプライアンスリスクと社会リスクをもたらします。

Alibaba Cloud AI Guardrails は、事前トレーニング済み LLM、AI サービス、AI エージェント向けの包括的な保護システムを提供することにより、AI ビジネスのコンプライアンス、セキュリティ、および安定性を確保します。特に生成 AI の入力と出力のシナリオでは、AI Guardrails は正確なリスク検出とプロアクティブな防御機能を提供します。

リスク検出機能
コンテンツコンプライアンス検出、機密コンテンツ検出、プロンプトインジェクション攻撃検出など、包括的な検出機能が含まれています。
- コンテンツコンプライアンス検出: 生成 AI によるテキストコンテンツの入力と出力の多次元コンプライアンスモデレーションを実施し、政治的にセンシティブなコンテンツ、違法なコンテンツ、偏見と差別、有害な価値観などのリスクカテゴリを網羅します。これにより、AI が生成するコンテンツが法律、規制、およびプラットフォーム標準に準拠していることが保証されます。シナリオには、チャットボット、AI 教育、インテリジェントカスタマーサービス、AIGC 作成プラットフォームなどが含まれます。
- 機密コンテンツ検出: AI のインタラクション中に漏洩する可能性のあるプライバシーデータと機密情報を詳細に検出します。個人プライバシーと企業プライバシーに関連する機密コンテンツの識別をサポートし、トレーニングデータの漏洩と会話情報のオーバーフローリスクを防ぎます。シナリオには、AI ヘルスケア、AI 金融サービス、企業ナレッジベース Q&A などが含まれます。
- プロンプトインジェクション 攻撃検知: 生成 AI を標的とするインジェクション攻撃を専門的に防御します。ジェイルブレイク命令、役割の想定誘導、システム命令の改ざんなどの敵対的動作を正確に識別し、AI システムの「免疫防御ライン」を構築します。シナリオには、AI エージェントの命令インタラクションセキュリティ保護、オープンドメイン対話システムの敵対的攻撃防御、サードパーティプラグイン呼び出しの権限制御などが含まれます。
カスタム保護構成
保護構成で、きめ細かいリスク検出項目の変更をサポートします。 [ AI Guardrails コンソール] を使用して、いつでも関連するリスク検出コンテンツを開いたり閉じたりすることで、最適なリスク検出テンプレートを作成できます。
- カスタム検出項目: コンテンツコンプライアンス検出で、きめ細かいタグを構成します。
- カスタムリスクしきい値: きめ細かいタグのヒットしきい値を構成し、モデル出力の 0 ～ 100 の信頼スコアで最小構成ステップサイズ 1 をサポートします。
- カスタムフィルターワード: 検出してブロックする必要がある機密ワード (競合他社の名前など) を構成し、追加、削除、変更などの辞書管理操作をサポートします。

製品機能の詳細については、ドキュメントの「機能」ページをご参照ください。

シナリオ

リスク検出に AI Guardrails を使用することをお勧めするビジネスシナリオを以下に示します。

処理のために生成 AI に送信されたユーザープロンプト。
生成 AI によるマルチモーダルコンテンツ出力 (テキスト、画像、動画など)。
生成 AI トレーニングコーパスのスキャンと無害化。
AI エージェントユーザー命令の入力と出力のリスク検出。

特徴

リスク検出機能

カスタム保護構成

シナリオ