Model Gallery は PAI-DLC および PAI-EAS を統合し、コードを記述せずにオープンソースの大規模言語モデル(LLM)のデプロイと学習を効率的に実行できます。本トピックでは、Qwen3-0.6B モデルを例として、Model Gallery の利用手順を説明します。他のモデルにも同様の手順が適用されます。
前提条件
ルートアカウントを使用して PAI を有効化し、ワークスペースを作成します。 PAI コンソール にログインし、左上隅でリージョンを選択した後、ワンクリック権限付与によりプロダクトを有効化します。
課金について
本トピックの例では、パブリックリソースを使用して DLC ジョブおよび EAS サービスを作成します。これらのサービスは従量課金方式で課金されます。課金ルールの詳細については、「DLC の課金について」および「EAS の課金について」をご参照ください。
モデルのデプロイメント
モデルのデプロイメント
PAI コンソール にログインします。左側のナビゲーションウィンドウで、Model Gallery をクリックします。Qwen3-0.6B タブを見つけ、Deploy をクリックします。

デプロイメントパラメーターを構成します。デプロイメント設定ページにはデフォルトパラメーターが事前に入力されています。Deploy > OK をクリックします。デプロイメントには約 5 分かかります。ステータスが In operation に変更された場合、デプロイメントは成功です。
デフォルトでは、モデルは従量課金方式のパブリックリソースを使用してデプロイされます。

モデルの呼び出し
API 呼び出し情報を表示します。サービスタイプの詳細ページで、[API 呼び出し情報の表示] をクリックして、呼び出しエンドポイント および Token を取得します。
後からデプロイメントタスクの詳細を表示するには、左側のナビゲーションウィンドウで Model Gallery > Job Management > Deployment Jobs をクリックし、その後 Service name をクリックします。

モデルサービスを試用します。サービスを呼び出す一般的な方法は以下のとおりです。
オンラインデバッグ
Online Debugging ページに移動すると、LLM サービスは Conversation Debugging および API Debugging をサポートします。

Cherry Studio クライアントの使用
Cherry Studio は大規模言語モデルと連携するための人気クライアントであり、MCP 機能を備えています。これを使用することで、LLM とのチャットを簡単に実行できます。
PAI 上でデプロイされた Qwen3 モデルへの接続
クライアントのインストール
Cherry Studio にアクセスして、クライアントをダウンロードおよびインストールします。
また、
https://github.com/CherryHQ/cherry-studio/releasesからもダウンロードできます。プロバイダーの追加
左下隅の
設定ボタンをクリックします。モデルサービス セクションで、追加 をクリックします。プロバイダー名 には、Platform for AI のような任意の名前を入力します。プロバイダータイプは OpenAI に設定します。
OK をクリックします。
API キー には取得したトークンを入力します。API エンドポイント には取得したエンドポイント URL を入力します。
追加 をクリックし、モデル ID フィールドに
Qwen3-0.6Bを入力します(大文字と小文字を区別します)。API キー の横にある テスト をクリックして、接続性を確認できます。
をクリックしてチャットページに戻ります。ウィンドウの上部で、追加した Qwen3-0.6B モデルに切り替えてチャットを開始します。
Python SDK の使用
from openai import OpenAI import os # 環境変数を設定していない場合は、次の行を EAS サービスから取得したトークンに置き換えてください:token = 'YTA1NTEzMzY3ZTY4Z******************' token = os.environ.get("Token") # YOUR_ENDPOINT_URL の末尾にある "/v1" は削除しないでください。 client = OpenAI( api_key=token, base_url=f'YOUR_ENDPOINT_URL/v1', ) if token is None: print("環境変数 Token を設定するか、token 変数に直接トークンを割り当ててください。") exit() query = 'Hello, who are you?' messages = [{'role': 'user', 'content': query}] resp = client.chat.completions.create(model='Qwen3-0.6B', messages=messages, max_tokens=512, temperature=0) query = messages[0]['content'] response = resp.choices[0].message.content print(f'query: {query}') print(f'response: {response}')
重要なお知らせ
本トピックでは、モデルサービスを作成するためにパブリックリソースを使用しており、これは従量課金方式で課金されます。サービスが不要になった場合は、サービスを停止または削除して、今後の課金を回避してください。

モデルのファインチューニング
特定のドメインにおいてモデルのパフォーマンスを向上させたい場合は、そのドメインのデータセットを用いてファインチューニングを実行できます。本セクションでは、ファインチューニングの目的および手順を例を用いて説明します。
例となるシナリオ
物流分野では、自然言語から構造化された情報(受信者名、住所、電話番号など)を抽出することがよくあります。大規模パラメーターのモデル(例:Qwen3-235B-A22B)を使用すると優れた結果が得られますが、コストが高く、処理速度も遅くなります。パフォーマンスとコストのバランスを取るため、まず大規模パラメーターのモデルを用いてデータにアノテーションを付与し、その後、このデータを用いて小規模なモデル(例:Qwen3-0.6B)をファインチューニングすることで、同じタスクにおいて同程度のパフォーマンスを実現できます。このプロセスは、モデル蒸留とも呼ばれます。
同一の構造化情報抽出タスクにおいて、元の Qwen3-0.6B モデルの精度は 50% ですが、ファインチューニング後は 90% を超える精度に達します。
例となる受信者住所情報 | 例となる構造化情報 |
Amina Patel - 電話番号 (474) 598-1543 - 米国ペンシルベニア州アレンタウン 1425 S 5th St, Apt 3B, 18104 | |
データの準備
このタスクにおいて、教師モデル (Qwen3-235B-A22B) から Qwen3-0.6B へ知識を蒸留するには、まず教師モデルの API を使用して、受信元アドレス情報を構造化された JSON 形式のデータとして抽出する必要があります。このデータ生成プロセスには時間がかかる場合があります。そのため、このトピックでは、サンプルの トレーニングデータセット train.json および 検証セット eval.json を提供しており、これらは直接ダウンロードして使用できます。
モデル蒸留では、大規模パラメーターのモデルを教師モデルとも呼びます。本トピックで使用されるデータは大規模モデルによって生成されており、機密のユーザー情報は一切含まれていません。
本番環境への適用
モデルのファインチューニング
左側のナビゲーションウィンドウで、Model Gallery をクリックします。Qwen3-0.6B タブを検索し、Fine-tune をクリックします。

トレーニングタスクのパラメーターを構成します。以下の主要なパラメーターのみを構成する必要があります。その他のパラメーターはデフォルト値のままにしてください。
Training Mode:デフォルトは SFT 監視付きファインチューニング で、LoRA ファインチューニング手法が使用されます。
LoRA は、モデルのパラメーターの一部のみを修正することでトレーニングリソースを節約する効率的なモデルファインチューニング手法です。
Training dataset: まず、サンプルのトレーニングデータセット train.json をクリックしてダウンロードします。 次に、構成ページで OSS file or directory を選択します。
アイコンをクリックしてバケットを選択します。 [ファイルのアップロード] をクリックして、ダウンロードしたトレーニングデータセットを OSS にアップロードします。 その後、ファイルを選択します。
Validate dataset: まず、検証用データセットファイル および eval.json をダウンロードします。次に、Add validation dataset をクリックし、学習用データセットを設定した際と同じ手順に従ってファイルをアップロードします。
検証セットは、トレーニング中にモデルのパフォーマンスを評価するために使用され、未学習データに対するモデルの性能を評価するのに役立ちます。
Model output path:デフォルトでは、ファインチューニングされたモデルは OSS に保存されます。OSS フォルダーパスが空の場合、フォルダーの作成 を実行し、パスを指定する必要があります。
Resource Group Type: Public Resource Group を選択します。このファインチューニングタスクには約 5 GB の VRAM が必要です。コンソールは自動的にリストをフィルターし、
ecs.gn7i-c16g1.4xlargeのような適切なインスタンスタイプのみを表示します。Hyperparameters:
learning_rate:0.0005 に設定
num_train_epochs:4 に設定
per_device_train_batch_size:8 に設定
seq_length:512 に設定
その後、Train > OK をクリックします。トレーニングタスクは Creating ステータスに入ります。ステータスが In operation に変更された場合、モデルのファインチューニングが開始されます。
トレーニングタスクを表示し、完了を待ちます。モデルのファインチューニングには約 10 分かかります。この間、タスク詳細ページにはタスクログおよびメトリック曲線が表示されます。トレーニングが完了すると、ファインチューニングされたモデルは指定された OSS ディレクトリに保存されます。
後からトレーニングタスクの詳細を表示するには、左側のナビゲーションウィンドウで Model Gallery > Job Management > Training Jobs をクリックし、その後タスク名をクリックします。

ファインチューニング済みモデルのデプロイメント
トレーニングタスクの詳細ページで、Deploy ボタンをクリックしてデプロイメント設定ページを開きます。Resource Type には Public Resources を選択します。0.6B モデルのデプロイメントには約 5 GB の VRAM が必要です。コンソールは既に リソース仕様 リストをフィルターし、この要件を満たすインスタンスタイプ(例:ecs.gn7i-c8g1.2xlarge)のみを表示しています。その他のパラメーターはデフォルト値のままにし、Deploy > OK をクリックします。
デプロイメントプロセスには約 5 分かかります。ステータスが Running に変更された場合、サービスのデプロイメントは成功です。
後でトレーニングタスクの詳細を表示するには、左側のナビゲーションウィンドウで Model Gallery > Job Management > Training Jobs をクリックし、その後タスク名をクリックします。

トレーニングタスクが成功したと表示された後、[デプロイ] ボタンがクリックできない場合は、出力モデルの登録処理がまだ進行中であることを意味します。約 1 分待つ必要があります。

モデルの呼び出しに関する以降の手順は、「モデルの呼び出し」と同一です。
ファインチューニング済みモデルのパフォーマンス検証
ファインチューニング済みモデルを本番環境にデプロイする前に、その安定性および精度を保証し、本番運用後に予期せぬ問題が発生しないように、体系的にパフォーマンスを評価することを推奨します。
テストデータの準備
トレーニングデータと重複しないテストデータを準備し、モデルのパフォーマンスをテストします。本ソリューションでは、テストデータセットをあらかじめ用意しており、以下の精度テストコードを実行すると自動的にダウンロードされます。
テストデータのサンプルはトレーニングデータと重複してはいけません。これにより、モデルの新規データに対する汎化能力をより正確に反映でき、"既知のサンプル" による過大なスコアを回避できます。
評価指標の設計
評価基準は、実際のビジネス目標に密接に沿っている必要があります。本ソリューションでは、たとえば生成された JSON 文字列が有効かどうかを判定するだけでなく、対応するキーと値のペアが正しいかどうかも確認する必要があります。
評価指標はプログラムで定義する必要があります。本例における評価指標の実装については、以下の精度テストコードの compare_address_info メソッドをご参照ください。ファインチューニング後のパフォーマンス検証
以下のテストコードを実行して、テストデータセットにおけるモデルの精度を出力します。
出力:
すべての予測が完了しました!結果は predicted_labels.jsonl に保存されました
サンプル数:400
正しい応答:382
誤った応答:18
精度:95.5 %モデルのファインチューニングにおける乱数シードおよび大規模モデルの出力のランダム性の影響により、テストで得られる精度は本ソリューションの結果と異なる場合があります。これは正常な現象です。
精度は 95.5% であり、元の Qwen3-0.6B モデルの 50% の精度と比べて大幅な向上です。これは、ファインチューニング済みモデルが物流の注文入力領域における構造化情報抽出機能を大幅に強化したことを示しています。
本チュートリアルのトレーニング時間を短縮するため、トレーニングエポック数を 4 に設定しましたが、精度はすでに 95.5% まで向上しています。さらに精度を向上させるには、トレーニングエポック数を適切に増加させることも可能です。
重要なお知らせ
本トピックでは、モデルサービスを作成するためにパブリックリソースを使用しており、これは従量課金方式で課金されます。サービスが不要になった場合は、サービスを停止または削除して、今後の課金を回避してください。

関連ドキュメント
評価および圧縮などの Model Gallery の機能の詳細については、「Model Gallery」をご参照ください。
Auto Scaling、ストレステスト、モニタリングおよびアラートなどの EAS の機能の詳細については、「EAS の概要」をご参照ください。

