Alibaba Cloud Platform for AI (PAI) は、さまざまなフレームワークおよび CUDA バージョンに基づく公式イメージを提供します。ご利用の DLC、EAS、または DSW でこれらのイメージを使用する場合、AI 開発環境を迅速に構築するために適切な公式イメージを選択できます。本トピックでは、PAI の事前構成済み公式イメージの機能について説明し、コアイメージの一覧を提供します。
公式イメージの概要
Alibaba Cloud PAI の公式イメージは一貫した命名規則に従っており、イメージ名から基本的なイメージ情報を識別できます。公式イメージ名には通常、以下の固定フィールドが含まれます。カスタムイメージを作成する際も、この命名規則をご利用ください。
公式イメージ名の例 | イメージ名の構成要素 | 各プロダクトでサポートされるイメージタイプ |
|
| 公式イメージ一覧の「対応サブプロダクト」タグを確認して、プロダクトとの互換性をご確認ください。 |
|
|
DSW/DLC 公式イメージ
PAI は、さまざまな機械学習フレームワークに基づく DSW/DLC 公式イメージを提供します。完全な公式イメージ一覧は、PAI コンソール内の「AI アセット - イメージ」ページでご確認いただけます。
Python
概要
Python は、データ処理、モデル開発、学習など、機械学習分野で広く使われるシンプルかつ強力な高水準プログラミング言語です。NumPy、PyTorch、TensorFlow などの豊富なライブラリを備えており、高い開発効率を実現します。PAI では、以下の 2 種類の Python イメージを提供しています。
CPU イメージ:CPU 演算向けに、公式 Ubuntu ベースイメージを基に構築。
GPU イメージ:GPU 演算向けに、公式 CUDA ベースイメージを基に構築。
主な特徴
Ubuntu 22.04 および Ubuntu 24.04 をサポート。
Alibaba Cloud の高性能 RDMA ネットワーキングをサポート。
Python 3.10 ~ 3.14 をサポート。
CUDA 12.4 ~ 13.0 をサポート。
curl、git、wget、rclone、ping などの一般的な開発ツールを含む。
pip および apt 用に、Alibaba Cloud ミラーを使用。
PyTorch
概要
PAI では、以下の 2 種類の PyTorch イメージを提供しています。
PyTorch、TorchVision、TorchAudio パッケージが事前にインストールされた PAI Python イメージを基に構築。これらのイメージは Python イメージのすべての機能を継承しており、バージョン 2.4.0 以降の公式 PyTorch リリースに対応しています。
NVIDIA NGC PyTorch イメージを基に構築。一般的な開発ツールが事前にインストールされており、pip および apt 用にAlibaba Cloud ミラーが設定されています。
タグの説明
-accl:
これらのイメージには、Alibaba Cloud 高性能 Collective Communication Library (ACCL)が事前にインストールされています。ACCL は NCCL よりも高い通信パフォーマンスを実現します。
ACCL ベースのイメージで開発または学習を行う場合、事前に構成された Python 環境をご利用ください。Python 仮想環境をご利用になりたい場合は、インストールガイドに従って、ご自身の環境に ACCL を構成してください。
-ngc:
これらのイメージは NVIDIA NGC PyTorch イメージを基に構築されています。タグには NGC バージョンが含まれます。たとえば、
2.10.0-gpu-py312-cu130-ubuntu24.04-ngc25.11は NGC PyTorch 25.11 を基にしています。NGC PyTorch イメージの機能に関する詳細は、NVIDIA 公式ドキュメントをご参照ください。
Data-Juicer
概要
Data-Juicer は、データのクリーニングおよび前処理を目的とした分散型フレームワークです。Ray の分散処理機能を活用し、大規模言語モデルの学習におけるデータ品質を向上させ、マルチモーダルデータの融合をサポートします。PAI では、CPU または GPU 環境でデータパイプラインを迅速に構築し、分散ジョブを実行できるよう、2 種類の Data-Juicer イメージを提供しています。これらのイメージには、組み込みのデータプロセッサ、品質評価ツール、ビジュアル分析機能が含まれています。
CPU イメージ:テキスト処理やデータクリーニングなどの大規模な CPU 専用タスク向けに、PAI の CPU ベースイメージを基に構築。
GPU イメージ:モデル推論や品質スコアリングなどの GPU 加速タスク向けに、PAI の CUDA ベースイメージを基に構築。
主な特徴
Ubuntu 22.04 をベース。
高スループット・低レイテンシの分散データ読み込みおよび処理のために、Alibaba Cloud RDMA をサポート。
組み込みプロセッサを含む Data-Juicer 実行環境を完全に搭載。データ処理タスクを素早く開始でき、Ray Dashboard を使用して監視できます。
データクリーニング、品質評価、マルチモーダルデータ生成など、多様なワークロード向けに、CPU/GPU 異種リソースのスケジューリングをサポート。
pip および apt の依存関係インストールを高速化し、安定性を向上させるため、デフォルトで Alibaba Cloud ミラーを使用。
Responsible-AI-Develop
概要
Responsible AI(責任ある AI)とは、AI モデルのライフサイクル全体を通じて適用される、安全性、信頼性、公平性、透明性、コンプライアンスを確保するための基本原則および実践手法です。開発、学習、ファインチューニング、評価、デプロイメントの各段階で適用され、企業が信頼できる AI システムを構築し、リスクを軽減し、ユーザーの信頼を得ることを支援します。PAI では、Responsible AI の実践を支援するための 2 種類のベースイメージを提供しています。
CPU イメージ:一般向け CPU 演算に使用される公式 Ubuntu イメージを基に構築。Responsible AI ツールチェーンが統合されています。
GPU イメージ:高性能 GPU シナリオ向けに使用される公式 CUDA イメージを基に構築。Responsible AI ツールチェーンが統合されています。
主な特徴
1. Ubuntu 22.04 イメージをサポート。
Python 3.11 ~ 3.14 をサポート。
CUDA 11.8 をサポート。
モデルの公平性やエラー分析など、多次元分析を可能にするインタラクティブダッシュボードを備えた Responsible AI ビジュアル分析ツールを含む。これにより、開発者は潜在的なバイアスやエラーを特定できます。
差分プライバシー学習をサポート。モデル学習時に制御されたノイズを注入することで、機密データの漏洩を防止し、コンプライアンスおよびプライバシー要件を満たします。
大規模モデルのシャード暗号化ストレージおよび推論時の認証済み復号を実現する RAI モデル暗号化 SDK(RAI_SAM_SDK)を含む。
Ray
概要
Ray は、大規模機械学習学習、ハイパーパラメーター最適化、強化学習、オンライン推論などに広く使われる高性能分散コンピューティングフレームワークです。PAI では、CPU または GPU 環境で Ray クラスターを迅速にセットアップし、分散ジョブを実行できるよう、2 種類の Ray イメージを提供しています。これらのイメージでは、ray[default] を使用して Ray の依存関係をインストールしており、Ray Dashboard および一般的なランタイムコンポーネントが含まれています。
CPU イメージ:CPU 専用の分散コンピューティングおよびデータ処理向けに、PAI の CPU ベースイメージを基に構築。
GPU イメージ:GPU 加速の学習、推論、大規模並列計算向けに、PAI の CUDA ベースイメージを基に構築。
主な特徴
Ubuntu 22.04 および Ubuntu 24.04 をベース。
高スループット・低レイテンシの分散通信のために、Alibaba Cloud RDMA をサポート。
一般的なコンポーネントを含む完全な Ray ランタイム環境を搭載。Ray Head および Worker ノードを素早く起動し、タスクを実行できます。
学習、データ処理、推論など、多様なワークロード向けに、CPU/GPU 異種リソースのスケジューリングをサポート。
pip および apt の依存関係インストールを高速化し、安定性を向上させるため、デフォルトで Alibaba Cloud ミラーを使用。
ModelScope
概要
ModelScope ライブラリは、モデルおよびデータセットの管理をサポートし、PyTorch や TensorFlow などの深層学習フレームワークを用いたモデル学習および推論を可能にします。Python 3.8+、PyTorch 1.11+、TensorFlow 上でテストおよび実行されています。ModelScope では、環境セットアップをスキップしてすぐに利用可能な公式イメージを提供しています。詳細については、「ModelScope 公式イメージ」をご参照ください。
TorchEasyRec
概要
TorchEasyRec は、レコメンデーションシステム向けの使いやすい深層学習フレームワークです。マッチング(リコール)、ランキング、マルチタスク学習、生成型レコメンデーションなど、一般的なシナリオをカバーします。シンプルな構成と柔軟なカスタマイズにより、高性能レコメンデーションモデルの開発およびデプロイメントを加速します。
PAI では、pytorch、torchrec、fbgemm、tensort などの依存関係が事前にインストールされた TorchEasyRec 公式イメージを提供しています。2 種類のイメージが利用可能です。
GPU 版:高性能の大規模レコメンデーションモデル学習向けに、Ubuntu 22.04 および CUDA 加速を基に構築(推奨)。
CPU 版:開発、デバッグ、小規模学習向けに、Ubuntu 22.04 を基に構築(注:一部操作は GPU 専用)。
TensorFlow
フレームワークバージョン | CUDA バージョン(GPU インスタンスのみ) | オペレーティングシステム |
|
|
|
DeepRec
フレームワークバージョン | CUDA バージョン(GPU インスタンスのみ) | オペレーティングシステム |
| CUDA 11.4 | Ubuntu 18.04 |
XGBoost
フレームワークバージョン | CUDA バージョン(GPU インスタンスのみ) | オペレーティングシステム |
XGBoost 1.6.0 | 該当なし(CPU インスタンスのみ) | Ubuntu 18.04 |
EAS 公式イメージ
PAI は、さまざまな機械学習フレームワークに基づく EAS 公式イメージを提供します。完全な公式イメージ一覧は、PAI コンソール内の「AI アセット - イメージ」ページでご確認いただけます。
TritonServer
概要
Triton Inference Server(通称 Triton Server)は、NVIDIA が開発した高性能推論サーバーであり、機械学習モデルのデプロイメントおよび推論を簡素化・高速化します。TensorFlow、PyTorch、ONNX Runtime など、複数の深層学習フレームワークをサポートし、異なるモデルおよびデータ型を一貫したインターフェイスで処理できます。
主な特徴
マルチフレームワーク対応:Triton Server は、さまざまな深層学習フレームワークおよびモデル形式をサポートし、多様なモデルを統一的にデプロイできます。
高スループット・低レイテンシ:バッチ処理および並列推論により推論パフォーマンスを向上。また、NVIDIA GPU のアクセラレーションを活用して、最大限の演算能力を発揮します。
動的モデル管理:モデルの動的ロードおよびアンロードを可能にし、柔軟なバージョン管理、A/B テスト、モデル更新を実現します。
シンプルな API およびスケーラビリティ:REST および gRPC インターフェイスを提供し、容易な統合を実現。また、Kubernetes などのコンテナー オーケストレーションシステムともシームレスに統合され、大規模推論デプロイメントに対応します。
異種ハードウェア対応:NVIDIA GPU に加え、CPU やその他のアクセラレータでも実行可能であり、多様なハードウェアプラットフォームへのデプロイメントをサポートします。
カスタム後処理:アプリケーションのニーズに応じて、推論結果にカスタムロジックを適用できます。
ComfyUI
概要
ComfyUI は、Stable Diffusion などの拡散モデルを実行・カスタマイズするためのノードベースのグラフィカルユーザーインターフェイスです。視覚的なワークフローを使用し、コードを記述せずにコンポーネントをドラッグ&ドロップして画像生成パイプラインを構築できます。また、高度にモジュール化・再利用可能なプロンプトエンジニアリングおよびモデルの組み合わせをサポートします。
主な特徴
ノードベースのワークフロー:テキストエンコーディング、サンプリング、モデル読み込み、画像後処理などのステップを独立したノードに分解し、ユーザーが自由に接続して精密な制御を実現。
効率的なリソース管理:現在のワークフローに必要なモデルのみを読み込むため、VRAM 使用量を削減し、バッチ生成および複雑なパイプライン最適化をサポート。
高度な拡張性:ControlNet、LoRA、Upscale などの豊富なコミュニティエコシステムを備えたカスタムノードプラグインをサポートし、新しいモデルや機能の容易な統合を実現。
ワークフローのエクスポートおよび共有:生成ワークフロー全体を JSON ファイルとしてエクスポートでき、再現性、共同作業、または他の環境へのデプロイメントが可能です。
PAI-RAG
概要
PAI-RAG は、PAI が提供するエンタープライズ向け検索拡張生成(RAG)対話型システムソリューションです。PAI-EAS を基盤とし、即時利用可能な RAG 機能を提供します。PAI-RAG は、大規模言語モデル(LLM)と知識検索技術を深く統合し、非公開知識の質問応答およびインテリジェントなカスタマーサポートアプリケーションの迅速なデプロイメントを実現します。また、柔軟なカスタマイズを可能にするオープンソースのモジュール型フレームワーク(GitHub:aigc-apps/PAI-RAG)も提供しています。
主な特徴
複数のベクトルデータベース対応:Elasticsearch、Hologres、Tablestore、Milvus など、主要なベクトルデータベースとネイティブ互換。多様なエンタープライズ要件に対応します。
Web 検索機能強化:リアルタイム Web 検索をサポートし、モデルの事前学習データのタイムリーさの制約を克服し、回答の正確性および新鮮さを向上させます。
柔軟なデプロイメントおよび統合:WebUI、RESTful API、OpenAI 互換インターフェイスを提供し、既存の業務システムへの迅速な統合を実現します。
エンドツーエンドのナレッジベース管理:WebUI または OSS を使用したドキュメントのアップロードおよび管理をサポート。チャンキング、ベクトル化、バージョン更新、ナレッジベース操作など、ワンストップの機能を提供します。
vLLM
概要
vLLM は、さまざまなオープンソース大規模言語モデル(LLM)の効率的なデプロイメントおよび実行を目的とした、オープンソースの LLM 推論およびサービングエンジンです。先進的なメモリ管理およびスケジューリング技術を活用し、低レイテンシを維持しながらスループットを大幅に向上させ、業界をリードする LLM 推論フレームワークとなっています。
主な特徴
PagedAttention:OS のページング機構に着想を得たコア革新技術。KV Cache を動的に管理し、VRAM の断片化を解消し、VRAM 利用効率を大幅に向上させます。
継続的バッチ処理:長さの異なるリクエストを動的にマージして並列デコードを実行し、GPU 利用率およびスループットを大幅に向上させます。
高スループット・低レイテンシ:同一ハードウェア上でより高い同時実行数をサポートし、高トラフィックの本番環境に最適です。
開発者フレンドリ:シンプルな Python API および OpenAI 互換インターフェイスを提供し、既存アプリケーションへの迅速な統合を実現します。
豊かなエコシステム:LoRA ファインチューニング推論、マルチモーダルモデル、ツール呼び出し(Function Calling)などの高度な機能をネイティブサポートします。
EasyAnimate
概要
EasyAnimate は、PAI が開発した、Diffusion Transformer(DiT)アーキテクチャに基づくエンドツーエンドの高精細長尺動画生成フレームワークです。テキストまたは画像(テキスト→動画/画像→動画)から高品質な動画を迅速に生成でき、データ前処理、VAE 学習、DiT 推論をカバーする包括的なソリューションを提供します。
主な特徴
高解像度長尺動画生成:1024×1024 解像度、6 秒以上といった一貫性のある動画を生成できます。
マルチモーダル入力:テキストプロンプト(テキスト→動画)および画像入力(画像→動画)の両方をサポートし、ダイナミックな動画生成を実現します。
完全な学習パイプライン:VAE、DiT ベースモデル、LoRA ファインチューニングのエンドツーエンド学習機能を提供し、カスタマイズ開発をサポートします。
本番環境対応のデプロイメント:PAI 推論サービスによる正式サポートにより、クラウド推論プラットフォームへのシームレスな統合が可能で、本番環境に適しています。
Kohya
概要
Kohya は、Stable Diffusion のファインチューニングスクリプトから派生したツール群のエコシステムです。Gradio を基にしたグラフィカルインターフェイスにより、LoRA や DreamBooth などのモデルファインチューニング手法の利用障壁を大幅に低減します。
主な特徴
複数の学習手法対応:LoRA、DreamBooth、全パラメーターのファインチューニング、SDXL モデル学習をネイティブサポート。
グラフィカルインターフェイス:直感的な Web UI(Gradio 基盤)を提供。ユーザーはコマンドラインではなく、フォームを使用してパラメーターを設定できます。
クロスプラットフォーム対応:主に Windows 向けに設計されていますが、Linux および macOS もサポート。
エンドツーエンドのツールチェーン:データ前処理、自動キャプション生成、学習モニタリング、モデルエクスポートを統合し、ファインチューニングのライフサイクル全体をカバーします。
オープンソースおよびアクティブなコミュニティ:完全にオープンソースで、継続的なコミュニティによるメンテナンスが行われており、Stable Diffusion WebUI などの主要な推論フレームワークとの互換性を保ち、学習済みモデルの直接デプロイメントを可能にします。
Stable-Diffusion-WebUI
概要
Stable-Diffusion-WebUI は、Stable Diffusion モデルのローカルデプロイメントおよび実行を目的としたオープンソースのグラフィカルインターフェイスです。テキスト→画像、画像→画像生成などの生成 AI の利用障壁を大幅に低減します。
主な特徴
マルチモーダル生成:テキスト→画像(txt2img)、画像→画像(img2img)、インペインティング、アウトペインティングなど、主流のモードをサポート。
豊富な拡張エコシステム:ControlNet、LoRA、T2I-Adapter など、人気の拡張機能をサポートする組み込みプラグインシステムを備え、生成制御を強化します。
統合された学習およびファインチューニング:DreamBooth、LoRA、Textual Inversion を含む、カスタムモデルのファインチューニング機能を内蔵。
クロスプラットフォームデプロイメント:Windows、Linux、macOS、Google Colab で実行可能。CPU および GPU(NVIDIA/AMD)ハードウェアをサポート。
ユーザーフレンドリ:Gradio を使用した Web インターフェイスにより、ビジュアルパラメーター設定が可能で、初心者から専門家まで幅広いユーザーに適しています。
CosyVoice-frontend/CosyVoice-backend
CosyVoice は、音声クローン機能を備えた次世代高忠実度音声合成モデルです。30 秒未満のプロンプト音声クリップからターゲット音声をクローンでき、クロスリンガル音声レプリケーションをサポートします。カスタマーサービス対話、オーディオブックのナレーション、短尺動画の吹き替えなど、さまざまなシナリオに適しています。フロントエンド/バックエンド分割版は、高いパフォーマンスを実現します。バックエンドインスタンスが総計算負荷の 80 % を処理します。ロスレスアクセラレーション技術を活用することで、1 台のバックエンドインスタンスが 8 台のフロントエンドインスタンスからのトラフィックを処理できます。これにより、スループットが向上し、レイテンシが 25 % 削減されます。
CosyVoice-WebUI
概要
CosyVoice は、音声クローン機能を備えた次世代高忠実度音声合成モデルです。30 秒未満のプロンプト音声クリップからターゲット音声をクローンでき、クロスリンガル音声レプリケーションをサポートします。カスタマーサービス対話、オーディオブックのナレーション、短尺動画の吹き替えなど、さまざまなシナリオに適しています。PAI-EAS では、このモデルを統合されたビジュアル WebUI とともにパッケージ化し、クラウドベースの音声推論サービスを迅速にデプロイできるようにしています。
主な特徴
ゼロショット音声クローン:3 ~ 10 秒の参照音声からターゲット音声を再現し、パーソナライズされた音声生成を実現。
マルチリンガルおよびクロスリンガル合成:中国語、英語、日本語、韓国語など、複数の言語をサポート。言語間で音声の一貫性を維持します。
感情および詳細制御:自然言語による記述で、感情、笑い、呼吸などの声の詳細を精密に制御できます。
人間のような自然さ:イントネーション、リズム、ポーズにおいて人間の話し声と一致し、従来の TTS 技術を大幅に上回る性能を発揮します。
リアルタイムストリーミング合成:リアルタイム対話シナリオ向けに、低レイテンシのストリーミング音声合成出力をサポート。
フルスタックツールチェーン:推論、学習、デプロイメントまでをカバーする、産業レベルのアプリケーション統合に対応した完全な機能を提供します。
SGLang
概要
SGLang(Structured Generation Language)は、高性能の大規模言語モデル推論およびサービングフレームワークです。「フロントエンド言語+バックエンドランタイム」の共同設計アーキテクチャを採用しています。フロントエンドは、制御可能な出力ロジックを実現する構造化生成プログラミング言語を提供し、バックエンドは、低レイテンシ・高スループットのモデルサービングを実現する最適化された推論エンジン(SGLang Runtime)です。
主な特徴
構造化された制御可能な生成:JSON Schema、正規表現などの制約をネイティブサポートし、従来のプロンプトエンジニアリングの限界を克服します。
高性能推論:RadixAttention や Radix Cache などの革新的な最適化を活用し、主流のソリューション比で 3 ~ 5 倍のスループットを実現します。
マルチモーダル対応:テキストのみの LLM およびビジョン言語モデル(VLM)の両方をサポートし、画像や動画などのマルチモーダル入力にも対応します。
柔軟な統合:シンプルな Python API を提供し、複雑なプロンプトワークフローで OpenAI API を置き換えることができます。これにより、開発障壁が低下します。
TensorFlow-Serving
概要
TensorFlow Serving は、高性能のオープンソース機械学習モデルサービングシステムです。TensorFlow Extended(TFX)エコシステムのコアコンポーネントとして、SavedModel 形式でトレーニング済みの TensorFlow モデルをオンライン推論サービスとして迅速にデプロイし、gRPC および RESTful API を介して公開します。
主な特徴
モデルバージョン管理:複数のモデルバージョンを並列でロードし、段階的リリースおよびロールバックのためのシームレスなホットアップデートをサポート。
高性能推論:本番環境向けに最適化されたスケジューリングおよびバッチ処理機構により、低レイテンシ・高スループットのサービスを実現。
即時利用可能な統合:追加の変換を必要とせず、TensorFlow SavedModel 形式をネイティブサポート。
拡張可能なアーキテクチャ:Servable、Source、Manager などのプラグイン可能なコンポーネントを提供し、カスタムロードロジックおよびサービスポリシーを実装できます。
マルチプロトコル対応:高パフォーマンスの gRPC インターフェイスおよび容易な統合のための HTTP/REST インターフェイスの両方を提供し、さまざまなクライアント要件に対応します。
コアイメージ一覧
Lingjun リソース(サーバーレス)向けイメージ
イメージ名 | フレームワーク | インスタンスタイプ | CUDA | オペレーティングシステム | リージョン | 言語およびバージョン |
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04 |
| GPU | 12.1 | ubuntu 22.04 | 中国 (ウランチャブ) | Python 3.10 |
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04 |
| GPU | 12.1 | ubuntu 22.04 | 中国 (ウランチャブ) | Python 3.10 |
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04 |
| GPU | 12.1 | ubuntu 22.04 | 中国 (ウランチャブ) | Python 3.10 |
AIGC イメージ
イメージ名 | フレームワーク | インスタンスタイプ | CUDA | オペレーティングシステム | 対応リージョン | 言語およびバージョン |
stable-diffusion-webui:4.2 | StableDiffusionWebUI 4.2 | GPU | 12.4 | ubuntu 22.04 |
| Python 3.10 |
stable-diffusion-webui:4.1 | StableDiffusionWebUI 4.1 | GPU | 12.4 | ubuntu 22.04 | Python 3.10 |