モデルギャラリーは、PAI-DLC および PAI-EAS を統合し、オープンソースの大規模言語モデル (LLM) をコード不要で効率的にデプロイおよびトレーニングする方法を提供します。本トピックでは、Qwen3-0.6B モデルを例に、モデルギャラリーの使用方法を説明します。他のモデルでも同じワークフローが適用されます。
前提条件
Alibaba Cloud アカウントを使用して Platform for AI (PAI) を有効化し、ワークスペースを作成します。PAI コンソール にログインし、左上隅でリージョンを選択して、ワンクリック認可を完了します。
課金
本ガイドの例では、パブリックリソースを使用して PAI-DLC タスクおよび PAI-EAS サービスを作成します。これらのリソースは従量課金です。課金ルールの詳細については、「PAI-DLC 課金」および「PAI-EAS 課金」をご参照ください。
モデルデプロイメント
モデルのデプロイ
PAI コンソールにログインします。左側のナビゲーションウィンドウで、Model Galleryをクリックし、Qwen3-0.6Bを見つけ、次にDeployをクリックします。

デプロイメントパラメーターを設定します。デプロイメント構成ページには、デフォルトパラメーターが事前に設定されています。Deploy > Confirm をクリックします。デプロイメントには約 5 分かかります。ステータスが In operation に変わると、デプロイメントが完了します。
デフォルトでは、モデルサービスはパブリックリソースを使用し、従量課金方式で課金されます。

モデルの呼び出し
サービス詳細ページで、[呼び出し情報の表示] をクリックして、インターネットエンドポイント および Token を取得します。
後でデプロイメントジョブの詳細を表示するには、ナビゲーションウィンドウで Model Gallery > Job Management > Deployment Jobs に移動し、Service name をクリックします。

モデルサービスをテストします。以下のいずれかの方法でモデルを呼び出すことができます。
オンラインデバッグ
Online Debugging タブに切り替えます。大規模言語モデルサービスは、Conversation Debugging および API Debugging をサポートしています。


Cherry Studio クライアント
Cherry Studio は、大規模言語モデルとの対話に広く使われているクライアントです。MCP 機能を備えており、簡単に大規模モデルとチャットできます。
PAI にデプロイされた Qwen3 モデルへの接続
クライアントのインストール
Cherry Studio にアクセスして、クライアントをダウンロードおよびインストールします。
https://github.com/CherryHQ/cherry-studio/releasesからもダウンロードできます。プロバイダーの追加
左下隅の [設定] アイコン
をクリックします。モデルプロバイダー セクションで、[追加] をクリックします。プロバイダー名 フィールドに、Platform for AI などの任意の名前を入力します。プロバイダーの種類 では、OpenAI を選択します。
[OK] をクリックします。
API キー フィールドにトークンを、API ホスト フィールドにインターネットエンドポイントを入力します。
[追加] をクリックします。モデル ID フィールドに、
Qwen3-0.6B(大文字小文字を区別) を入力します。API キー フィールド横の [チェック] をクリックして、接続性をテストできます。
アイコンをクリックしてチャットページに戻ります。ウィンドウ上部で、追加した Qwen3-0.6B モデルに切り替えて、会話を開始します。
Python SDK
from openai import OpenAI import os # 環境変数が設定されていない場合は、次の行をご利用の EAS サービストークンに置き換えてください: token = '<YOUR_EAS_SERVICE_TOKEN>' token = os.environ.get("Token") # インターネットエンドポイントの末尾にある "/v1" は削除しないでください。 client = OpenAI( api_key=token, base_url=f'<YOUR_INTERNET_ENDPOINT>/v1', ) if token is None: print("Token 環境変数を設定するか、'token' 変数に直接トークン値を代入してください。") exit() query = 'Hello, who are you?' messages = [{'role': 'user', 'content': query}] resp = client.chat.completions.create(model='Qwen3-0.6B', messages=messages, max_tokens=512, temperature=0) query = messages[0]['content'] response = resp.choices[0].message.content print(f'query: {query}') print(f'response: {response}')
重要なお知らせ
本ガイドで作成されるモデルサービスはパブリックリソースを使用しており、従量課金で課金されます。不要になったら、サービスを停止または削除して、追加の課金を回避してください。

モデルのファインチューニング
ドメイン固有のデータセットでモデルをファインチューニングすることで、特定のドメインにおけるモデルのパフォーマンスを向上できます。以下のシナリオでは、ファインチューニングの目的と手順を示します。
ユースケース
物流業界では、自然言語から受信者の氏名、住所、電話番号などの構造化情報を抽出する必要がよくあります。Qwen3-235B-A22B のような大規模パラメーターモデルはこのタスクに優れていますが、コストが高くレイテンシーも大きくなります。パフォーマンスとコストのバランスを取るため、まず大規模パラメーターモデルを使用してデータにラベル付けを行い、そのデータを使って Qwen3-0.6B のような小規模パラメーターモデルをファインチューニングし、同様のパフォーマンスを実現できます。このプロセスはモデル蒸留とも呼ばれます。
このタスクにおいて、元の Qwen3-0.6B モデルの精度は 50% です。ファインチューニング後、その精度は 90% を超えることができます。
受信者住所情報の例 | 構造化情報の例 |
アミーナ・パテル - 電話番号 (474) 598-1543 - 1425 S 5th St, Apt 3B, Allentown, Pennsylvania 18104 | |
データ準備
このタスクにおいて、教師モデル (Qwen3-235B-A22B) から Qwen3-0.6B モデルへ知識を蒸留するには、まず教師モデルの API を使用して受信者住所を構造化 JSON データに抽出します。この JSON データの生成には時間がかかる場合があります。そのため、本ガイドではサンプルの訓練データセットtrain.json および検証データセットeval.json を提供しています。
モデル蒸留では、大規模モデルは教師モデルとも呼ばれます。本ガイドで使用するデータは大規模モデルによって合成的に生成されており、機密性のあるユーザー情報は一切含まれていません。
本番環境に適用
モデルのファインチューニング
ナビゲーションウィンドウで モデルギャラリー をクリックし、Qwen3-0.6B カードを見つけて、Fine-tune をクリックします。

トレーニングジョブのパラメーターを設定します。以下の主要なパラメーターのみを設定してください。他のパラメーターはデフォルト値のままにしておきます。
Training Mode: デフォルトは LoRA 方式を使用した SFT (教師ありファインチューニング) です。
LoRA は、モデルパラメーターの一部のみを変更することでトレーニングリソースを節約する、効率的なファインチューニング手法です。
Training dataset: まず、サンプルの訓練データセット train.json をダウンロードします。次に、構成ページで OSS file or directory を選択し、
アイコンをクリックしてバケットを選択し、Upload File をクリックしてデータセットを Object Storage Service (OSS) にアップロードし、ファイルを選択します。
Validate dataset: まず、サンプルの検証データセット eval.json をダウンロードします。次に、Add validation dataset をクリックし、訓練データセットと同様の手順でアップロードします。
検証データセットは、トレーニング中にモデルの未確認データに対するパフォーマンスを評価するために使用されます。
Model output path: デフォルトでは、サービスはファインチューニング済みモデルを OSS パスに保存します。宛先フォルダーが存在しない場合は、Create folder をクリックしてフォルダー名を指定します。
Resource Group Type: Public Resource Group を選択します。このファインチューニングジョブには約 5 GB の GPU メモリが必要です。コンソールはこの要件を満たすインスタンスタイプを自動的にフィルターします。
ecs.gn7i-c16g1.4xlargeなどのインスタンスタイプを選択します。Hyperparameters:
learning_rate: 0.0005 に設定
num_train_epochs: 4 に設定
per_device_train_batch_size: 8 に設定
seq_length: 512 に設定
次に、Train > OK をクリックします。トレーニングジョブのステータスが Creating から In operation に変わると、モデルのファインチューニングが開始されます。
トレーニングジョブを監視し、完了を待ちます。ファインチューニングプロセスには約 10 分かかります。このプロセス中、タスク詳細ページにタスクログおよびメトリック曲線が表示されます。ジョブが完了すると、サービスはファインチューニング済みモデルを指定された OSS フォルダーに保存します。
後でジョブの詳細を確認するには、ナビゲーションウィンドウで Model Gallery > Job Management > Training Jobs をクリックし、ジョブ名をクリックします。

ファインチューニング済みモデルのデプロイ
トレーニングジョブ詳細ページで、Deploy をクリックしてデプロイ設定を開きます。Resource Type では、Public Resources を選択します。0.6B モデルのデプロイには約 5 GB の GPU メモリが必要です。Instance Type では、この要件を満たす仕様のみが表示されます。ecs.gn7i-c8g1.2xlarge などのオプションを選択し、他のパラメーターはデフォルト値のままにして、Deploy > OK をクリックします。
デプロイには約 5 分かかります。ステータスが Running に変わると、デプロイが成功します。
後でトレーニングジョブの詳細を確認するには、左側のナビゲーションウィンドウで Model Gallery > Job Management > Training Jobs をクリックし、ジョブ名をクリックします。

[デプロイ] ボタンがトレーニングジョブ完了後に無効になっている場合、これは出力モデルがまだ登録中のことを意味します。約 1 分お待ちください。

モデルを呼び出すには、「モデルの呼び出し」の手順に従ってください。
ファインチューニング済みモデルの評価
ファインチューニング済みモデルを本番環境にデプロイする前に、そのパフォーマンスを評価する必要があります。この評価により、モデルが安定しており精度が高いことを確認でき、デプロイ後の予期しない問題を防止するのに役立ちます。
テストデータの準備
モデルのパフォーマンスを評価するために、訓練データと重複しないテストデータセットを準備します。以下の精度テストコードは、必要なテストセットを自動的にダウンロードします。
テストデータには訓練データのサンプルが含まれてはなりません。これにより、新しいデータに対するモデルの汎化能力を正確に評価でき、サンプルの記憶による精度の水増しを防ぎます。
評価指標の設計
評価基準はビジネス目標と一致している必要があります。このユースケースでは、出力が有効な JSON 文字列であることを確認するだけでなく、キーと値のペアが正しいことも確認します。
評価指標をプログラムで定義する必要があります。実装例については、以下の精度テストコード内の compare_address_info メソッドをご参照ください。モデルパフォーマンスの評価
以下のコードを実行して、テストセットにおけるモデルの精度を計算します。
出力:
すべての予測が完了しました!結果は predicted_labels.jsonl に保存されました
サンプル数: 400
正しい応答: 382
誤った応答: 18
精度: 95.5 %ファインチューニング時のランダムシードや大規模モデル出力の確率的性質などの要因により、観測される精度は本ガイドの結果と異なる場合があります。これは予想されるものです。
モデルの精度は 95.5% に達し、元の Qwen3-0.6B モデルの 50% という精度を大幅に上回っています。これは、ファインチューニングによって物流データ入力向けの構造化情報抽出能力が大幅に向上したことを示しています。
本ガイドではトレーニング時間を短縮するために、トレーニングエポック数を 4 に設定していますが、これでも精度を 95.5% まで向上させるのに十分です。さらに精度を向上させるには、トレーニングエポック数を増やしてください。
重要事項
本ガイドでモデルサービスを作成する際にはパブリックリソースを使用しており、従量課金で課金されます。サービスが不要になったら、追加の課金を回避するためにサービスを停止または削除してください。


