Model Gallery は、PAI-DLC と PAI-EAS を活用して、オープンソース大規模言語モデル (LLM) をゼロコードでデプロイおよびトレーニングするのに役立ちます。このトピックでは、Qwen3-0.6B モデルを例として、Model Gallery の使用方法を説明します。他のモデルにも同じ手順が適用されます。
前提条件
PAI をアクティブ化してワークスペースを作成するには、ルートアカウントを使用する必要があります。PAI コンソールにログインします。左上隅で、PAI をアクティブ化するリージョンを選択します。次に、ワンクリック承認をクリックしてサービスをアクティブ化します。
課金情報
この例では、パブリックリソースを使用する DLC ジョブと EAS サービスを作成します。課金は従量課金制です。詳細な課金ルールについては、「DLC の課金情報」および「EAS の課金情報」をご参照ください。
モデルのデプロイ
モデルのデプロイ
PAI コンソールにログインします。左側のナビゲーションウィンドウで、Model Gallery をクリックします。Qwen3-0.6B タブを検索して選択します。次に、Deploy をクリックします。

デプロイメントパラメーターを設定します。デプロイメントページは、デフォルトのパラメーターで事前に設定されています。「Deploy」をクリックし、「[OK]」をクリックします。デプロイメントには約5分かかり、ステータスが「In operation」になると完了します。
デプロイはデフォルトでパブリックリソースを使用します。課金は従量課金制です。

モデルの呼び出し
サービスの詳細ページで、「エンドポイント情報の表示」をクリックして、エンドポイント URL と Token を取得できます。
デプロイメントタスクの詳細を表示するには、左側のナビゲーションウィンドウでModel Gallery > Job Management > Deployment Jobsの順にクリックし、次にService nameをクリックします。

モデルは、以下の一般的な方法で呼び出すことができます。
オンラインデバッグ
[Online Debugging] ページに移動します。大規模言語モデルサービスでは、[Conversation Debugging] および [API Debugging] をサポートしています。

Cherry Studio クライアントの使用
Cherry Studio は、業界をリードする大規模言語モデル会話用のクライアントです。また、MCP 機能もサポートしており、大規模言語モデルと簡単にチャットできます。
PAI にデプロイされた Qwen3 モデルへの接続
クライアントのインストール
Cherry Studio にアクセスしてクライアントをダウンロードし、インストールできます。
また、
https://github.com/CherryHQ/cherry-studio/releasesからダウンロードすることもできます。プロバイダーの追加
左下隅にある
[設定] ボタンをクリックします。[モデルサービス] の下にある [追加] をクリックします。[プロバイダー名] に、Platform for AI などのカスタム名を入力します。[プロバイダータイプ] を [OpenAI] に設定します。
[OK] をクリックします。
取得した Token を [API キー] フィールドに入力します。取得したエンドポイント URL を [API URL] フィールドに入力します。
[追加] をクリックします。[モデル ID] に
Qwen3-0.6B(大文字と小文字を区別) を入力します。次に、モデルを追加します。[API キー] フィールドの横にある [テスト] をクリックして、接続性を確認します。
をクリックしてチャットページに戻ります。ウィンドウの上部で、追加した Qwen3-0.6B モデルを選択し、チャットを開始します。
Python SDK の使用
from openai import OpenAI import os # If you have not set the environment variable, replace the next line with: token = 'YTA1NTEzMzY3ZTY4Z******************' token = os.environ.get("Token") # Do not remove the "/v1" suffix after the Endpoint URL. client = OpenAI( api_key=token, base_url=f'Endpoint URL/v1', ) if token is None: print("Set the Token environment variable, or assign your token directly to the token variable.") exit() query = 'Hello, who are you?' messages = [{'role': 'user', 'content': query}] resp = client.chat.completions.create(model='Qwen3-0.6B', messages=messages, max_tokens=512, temperature=0) query = messages[0]['content'] response = resp.choices[0].message.content print(f'query: {query}') print(f'response: {response}')
重要な注意事項
このトピックでは、パブリックリソースを使用してモデルサービスを作成します。課金は従量課金制です。サービスが不要になった場合は、追加料金を避けるために停止または削除してください。

モデルのファインチューニング
特定のドメインでより良いパフォーマンスが必要な場合は、そのドメインのデータセットでモデルをファインチューニングします。このトピックでは、以下のシナリオを例として、モデルのファインチューニングがどのように機能するかを説明します。
シナリオ例
物流では、自然言語から構造化情報 (受信者、住所、電話番号など) を抽出する必要があることがよくあります。Qwen3-235B-A22B のような大規模パラメーターモデルはうまく機能しますが、コストが高く、応答が遅くなります。パフォーマンスとコストのバランスを取るために、まず大規模パラメーターモデルを使用してデータにラベルを付けます。次に、そのデータを使用して Qwen3-0.6B のような小規模パラメーターモデルをファインチューニングし、同じタスクで同様のパフォーマンスを発揮するようにします。このプロセスはモデル蒸留と呼ばれます。
同じ構造化情報抽出タスクにおいて、元の Qwen3-0.6B モデルの精度は、50% です。ファインチューニング後、精度は 90% を超えます。
受信先アドレスの例 | 構造化された情報の例 |
アミナ・パテル - 電話番号 (474) 598-1543 - 米国ペンシルベニア州アレンタウン市 South 5th Street 1425 番地 Apt 3B、郵便番号 18104 | |
データ準備
このタスクにおいて、教師モデル(Qwen3-235B-A22B)から Qwen3-0.6B へ知識を蒸留するには、まず教師モデルの API を使用して受信元アドレス情報を構造化された JSON データに抽出します。この JSON データの生成には時間がかかる場合があります。そのため、本トピックでは、学習用および検証用のサンプルデータセットを提供します train.json および eval.json。これらのファイルは、そのままダウンロードして使用できます。
モデル蒸留では、大規模パラメーターモデルは教師モデルとも呼ばれます。ここで使用されるすべてのデータは大規模モデルによってシミュレートされており、ユーザーの機密情報は含まれていません。
本番環境への適用
モデルのファインチューニング
左側のナビゲーションウィンドウで、[モデルギャラリー] をクリックします。 「Qwen3-0.6B」タブを検索して選択します。次に、Fine-tune をクリックします。

これらの主要なパラメーターのみを構成する必要があります。その他のパラメーターはデフォルト値のままにしてください。
Training Mode: 教師ありファインチューニング (SFT) および LoRA がデフォルトで選択されています。
LoRA は、モデルのパラメーターの一部のみを変更してトレーニングリソースを節約する効率的なファインチューニング手法です。
Training dataset: まず、サンプルトレーニングデータセット train.json をダウンロードします。 次に、設定ページで OSS file or directory を選択します。
アイコンをクリックしてバケットを選択します。 [ファイルのアップロード] をクリックして、ダウンロードしたトレーニングデータセットを OSS にアップロードします。 その後、そのファイルを選択します。
Validate dataset: 最初に、検証用データセット eval.json をダウンロードします。次に、Add validation dataset をクリックします。学習用データセットの場合と同じ手順に従って、ファイルをアップロードおよび選択できます。
検証データセットは、トレーニング中のモデルのパフォーマンスを評価し、モデルが未知のデータにどの程度汎化するかを測定するのに役立ちます。
Model output path: ファインチューニング済みモデルは、デフォルトで OSS に保存されます。OSS フォルダが空の場合、[新しいフォルダを作成] して指定できます。
Resource Group Type: Public Resource Group を選択します。このファインチューニングには、約 5 GB の GPU メモリが必要です。コンソールでは、すでに適切なインスタンスタイプがフィルター処理されています。たとえば、
ecs.gn7i-c16g1.4xlargeを選択してください。Hyperparameters:
learning_rate: 0.0005 に設定
num_train_epochs: 4 に設定
per_device_train_batch_size: 8 に設定
seq_length: 512 に設定
次に、Train > [OK] をクリックします。トレーニングジョブのステータスが Creating に変わります。ステータスが In operation になると、ファインチューニングが開始されます。
トレーニングジョブを表示し、完了するまで待つことができます。ファインチューニングには約10分かかります。ファインチューニング中、ジョブ詳細ページにはログとメトリック曲線が表示されます。トレーニングが完了すると、ファインチューニングされたモデルは指定した OSS ディレクトリに保存されます。
後でトレーニングジョブの詳細を表示するには、左側のナビゲーションウィンドウで、Model Gallery > Job Management > Training Jobs をクリックします。次に、ジョブ名をクリックします。

ファインチューニング済みモデルのデプロイ
学習タスクの詳細ページで、Deploy ボタンをクリックしてデプロイ構成ページを開きます。「Resource Type」を「Public Resources」に設定します。0.6B モデルをデプロイするには、約 5 GB の VARM が必要です。「[リソース仕様]」セクションでは、適切なオプションがあらかじめフィルター処理されています。たとえば、「ecs.gn7i-c8g1.2xlarge」などのインスタンスを選択します。その他のすべてのパラメーターはデフォルト値のままにして、Deploy > OK をクリックします。
デプロイメントには約 5 分かかります。ステータスが Running に変更されると、デプロイメントが完了します。
後でトレーニングジョブの詳細を表示するには、左側のナビゲーションウィンドウで、Model Gallery > Job Management > Training Jobs をクリックします。次に、ジョブの名前をクリックします。

トレーニングジョブが成功と表示された後も [デプロイ] ボタンが無効になっている場合、モデルはまだ登録中です。約1分間お待ちください。

次に、「モデルの呼び出し」で説明されているのと同じ手順に従ってモデルを呼び出します。
ファインチューニング済みモデルの評価
ファインチューニングされたモデルを本番環境にデプロイする前に、そのパフォーマンスを体系的に評価します。これにより、良好な安定性と精度が確保され、起動後の予期せぬ問題を防ぐことができます。
テストデータの準備
トレーニングデータと重複しないテストデータを準備する必要があります。このトピックではテストデータセットを提供します。精度テストコードはテストデータを自動的にダウンロードします。
重複しないテストデータは、新しいデータに対するモデルの汎化能力をより正確に測定し、「既知の」サンプルからの誇張されたスコアを回避します。
評価メトリックの定義
評価メトリックは実際のビジネス目標と一致する必要があります。このトピックでは、生成された JSON 文字列が有効であるかを確認するだけでなく、キーと値が正しいことも検証します。
コードで評価メトリックを定義する必要があります。たとえば、以下の精度テストコードの compare_address_info メソッドをご参照ください。ファインチューニング済みモデルの評価
以下のテストコードを実行して、テストデータセットに対するモデルの精度を取得します。
出力:
All predictions complete! Results have been saved to predicted_labels.jsonl
Number of samples: 400
Correct responses: 382
Incorrect responses: 18
Accuracy: 95.5 %ファインチューニング時のランダム性(例:乱数シード)や大規模言語モデルの出力のばらつきにより、実際の精度はこのトピックの結果と異なる場合があります。これは正常な現象です。
精度は 95.5 % であり、元の Qwen3-0.6B モデルの 50 % よりも大幅に向上しています。これにより、ファインチューニングされたモデルが物流フォーム入力における構造化情報抽出を大幅に改善することが示されています。
このトピックでは、学習時間を短縮するために、トレーニングエポック数を 4 回に限定しています。わずか 4 エポックで精度は 95.5 % に達しています。さらに精度を高めるには、エポック数を増やすことができます。
重要な注意事項
このトピックでは、パブリックリソースを使用してモデルサービスを作成します。課金は従量課金制です。サービスが不要になった場合は、追加料金を避けるために停止または削除してください。

参考
評価や圧縮などの Model Gallery の詳細については、「Model Gallery」をご参照ください。
Auto Scaling、ストレステスト、監視アラートなどの EAS の詳細については、「EAS の概要」をご参照ください。

