AI センターは、EMR Serverless Spark が提供する、ビッグデータと AI を統合するシナリオ向けに設計されたワンストップインテリジェントエンジンです。AI 関数とモデルサービスという 2 つのコア機能により、複雑なコードを記述することなく、使い慣れた SQL のみを使用して、大規模言語モデル (LLM) の機能を大規模なデータ処理フローにシームレスに統合できます。
制限事項
AI センター (ベータ版) はパブリックプレビュー段階です。各 Alibaba Cloud アカウントとその RAM サブアカウントは、100 万トークンの無料使用クォータを共有します。消費されたトークンの合計数がこのクォータを超えると、AI 関数の呼び出しは失敗します。
AI センターは 2026 年 4 月 8 日に有料サービスとなる予定です。詳細については、「EMR Serverless Spark AI センターの商用化に関するお知らせ」をご参照ください。
主な利点
SQL ベースの AI 機能、ゼロコード開発
ai_query、感情分析、ベクトル化などの組み込み専用関数により、Python や Java のコードを記述したり、ソフトウェア開発キット (SDK) を管理したりする必要がなくなります。開発者は標準 SQL を使用して LLM を直接呼び出し、複雑な AI 推論を既存の抽出、変換、ロード (ETL) フローにシームレスに組み込むことができます。これにより、技術的な障壁と開発コストが大幅に削減されます。統一されたサービス登録、異種間の差異を抽象化
デフォルトでは、AI 関数は Alibaba Cloud の最新の Qwen3.5-Plus LLM を直接呼び出し、すぐに使える業界トップクラスの推論能力を提供します。また、柔軟なビジネス拡張もサポートしています。モデルサービス機能により、Alibaba Cloud Model Studio、PAI-EAS、または自己構築のプライベートモデルからのモデルをワンクリックで登録できます。統一されたアクセス層が、インターフェイスプロトコルや認証ロジックなどの基盤となる異種間の差異を抽象化し、「一度登録すれば、どこでも SQL を使用できる」というワークフローを実現します。
インプレースでのデータ処理、エンドツーエンドのインテリジェントループ
大規模なベクトル生成とバッチモデル推論は、大量のデータを移動させることなくインプレースで実行されます。これにより、データクレンジング、AI 特徴量エンジニアリング、結果の書き戻しにまたがる、クローズドなワンストップループが形成されます。データをそのドメイン内に保持することで、このアプローチはデータセキュリティとコンプライアンスを確保し、異種システム間のデータ転送コストを排除し、マルチモーダルデータ処理アーキテクチャを大幅に簡素化します。
利用シーン
コンテンツ理解
世論・フィードバック分析:コメント内の感情 (肯定的または否定的) を自動的に識別し、大量のユーザーフィードバックを分類します。
インテリジェントなチケットルーティング:テキストコンテンツに基づいてチケットを苦情、問い合わせ、提案などに自動的に分類し、適切な部門に正確にルーティングします。
越境ビジネス支援:エンドツーエンドの多言語翻訳を実行し、複数言語のレポートを迅速に生成したり、中国以外の市場向けにマーケティングコピーを調整したりします。
汎用的な要約生成:Qwen LLM を使用して、長いドキュメントの要約をバッチで生成し、キー情報を抽出します。
構造化データ抽出
キー情報抽出:契約書、ログ、コメントから、甲乙の氏名、金額、日付などの事前定義されたフィールドを正確に抽出し、データを直接 JSON 形式で出力してストレージに保存します。
自動的な文章校正:データエクスポートやレポート生成の前に、構文エラーや不適切な表現を自動的に修正し、プロフェッショナルな外部出力を保証します。
非構造化データから構造化データへの変換:自然言語で記述されたビジネスルールを、後続の SQL 分析のために標準化されたデータレコードに変換します。
セマンティック検索と検索拡張生成 (RAG)
RAG ベクトルデータベースの構築:大規模なドキュメントセットをセグメント化し、セマンティック埋め込みに変換して、企業のナレッジベースの基盤となるデータサポートを提供します。
インテリジェントな Q&A マッチング:ユーザーの質問とナレッジベース内の質問との間のセマンティック類似度を計算し、高精度の自動応答と検索を実現します。
インテリジェントなデータ重複排除:重複したニュース記事や類似の顧客サービスレコードなど、意味は同じだが表現が異なる冗長なデータを識別し、データセットをクレンジングします。
データセキュリティとコンプライアンス
データマスキング:テキストデータを自動的にスキャンして、氏名、ID カード番号、電話番号、銀行カード番号などの個人機密情報を識別し、データセキュリティを確保するためにマスキングまたは置換します。
プライバシーコンプライアンス監査:既存のデータ資産をバッチで分析し、マスキングされていない機密フィールドを特定します。
SQL 開発効率の向上
スムーズなジョブ移行:HiveQL 構文を Spark SQL 互換の構文に自動的に変換し、ユーザー定義関数 (UDF) の適応やウィンドウ関数の標準化に関連する問題を解決します。
クエリパフォーマンスチューニング:AI が SQL ロジックを分析し、述語プッシュダウン、バケット化戦略、結合操作に関する最適化の提案を提供して、実行効率を向上させます。
コードのコメント付けと提案:複雑な SQL スクリプトのコメントを自動的に生成し、開発者がレガシーコードのロジックを迅速に理解するのを支援します。