モデルギャラリーは Platform for AI (PAI)-DLC と PAI-EAS をカプセル化し、オープンソースの大規模言語モデル (LLM) を効率的にデプロイおよびトレーニングするためのゼロコードソリューションを提供します。このガイドでは、Qwen3-0.6B モデルを使用してプロセスを説明します。他のモデルにも同じ手順が適用されます。
前提条件
Alibaba Cloud アカウントを使用して Platform for AI (PAI) を有効化し、ワークスペースを作成します。これを行うには、PAI コンソールにログインし、左上隅でリージョンを選択してから、ワンクリック権限付与を使用してサービスを有効化します。
課金
このガイドの例では、パブリックリソースを使用して PAI-DLC タスクと PAI-EAS サービスを作成します。これらのリソースは従量課金制で課金されます。課金ルールの詳細については、「DLC の課金」および「EAS の課金」をご参照ください。
モデルのデプロイ
モデルのデプロイ
PAI コンソールにログインします。左側のナビゲーションウィンドウで、[モデルギャラリー] をクリックします。 Qwen3-0.6B を検索し、[デプロイ]をクリックします。

デプロイメントパラメーターを設定します。デプロイメントページにはデフォルトのパラメーターが含まれています。[デプロイ] > [OK] をクリックします。デプロイメントプロセスには約 5 分かかります。ステータスが [実行中] に変わると、デプロイメントは成功です。
デフォルトでは、このサービスはパブリックリソースを使用し、従量課金制で課金されます。

モデルの呼び出し
呼び出し情報を表示します。サービス詳細ページで、[呼び出し情報の表示] をクリックして [インターネットエンドポイント] と [トークン] を取得します。
後でデプロイメントタスクの詳細を表示するには、[モデルギャラリー] > [ジョブ管理] > [デプロイメントジョブ] に移動し、[サービス名] をクリックします。

モデルサービスをテストします。次のいずれかのメソッドを使用してモデルを呼び出すことができます。
オンラインデバッグ
[オンラインデバッグ] ページに切り替えます。[本文] フィールドに、
Hello, who are you?などの質問を入力します。次に、[リクエストの送信] をクリックします。LLM の応答が右側に表示されます。
Cherry Studio クライアントの使用
Cherry Studio は、大規模モデルと簡単にチャットできる MCP 機能を統合した、人気のある大規模モデルチャットクライアントです。
PAI にデプロイされた Qwen3 モデルへの接続
クライアントのインストール
Cherry Studio にアクセスしてクライアントをダウンロードし、インストールします。
https://github.com/CherryHQ/cherry-studio/releasesにアクセスしてダウンロードすることもできます。プロバイダーの追加
右上隅の
設定ボタンをクリックします。次に、[モデルプロバイダー] セクションで、[追加] をクリックします。[プロバイダー名] に、Platform for AI などのカスタム名を入力します。プロバイダータイプは OpenAI です。
[OK] をクリックします。
[API キー] フィールドにトークンを、[API ホスト] フィールドにエンドポイントを入力します。
[追加] をクリックします。[モデル ID] フィールドに、
Qwen3-0.6B(大文字と小文字を区別) を入力します。[API キー] フィールドの横にある [チェック] をクリックして接続をテストできます。
アイコンをクリックしてチャットページに戻ります。ウィンドウの上部で、追加した Qwen3-0.6B モデルに切り替えてチャットを開始します。
Python SDK の使用
from openai import OpenAI import os # 環境変数を設定していない場合は、次の行を EAS サービスのトークンに置き換えてください: token = 'YTA1NTEzMzY3ZTY4Z******************' token = os.environ.get("Token") # サービス URL の末尾にある "/v1" は削除しないでください。 client = OpenAI( api_key=token, base_url=f'Your service URL/v1', ) if token is None: print("Token 環境変数を設定するか、トークンを token 変数に直接割り当ててください。") exit() query = 'Hello, who are you?' messages = [{'role': 'user', 'content': query}] resp = client.chat.completions.create(model='Qwen3-0.6B', messages=messages, max_tokens=512, temperature=0) query = messages[0]['content'] response = resp.choices[0].message.content print(f'query: {query}') print(f'response: {response}')
重要事項
このガイドのモデルサービスは、パブリックリソースを使用して作成されており、従量課金制で課金されます。追加料金を避けるため、終了したらサービスを停止または削除してください。

モデルのファインチューニング
特定のドメインにおけるモデルのパフォーマンスを向上させるために、そのドメインのデータセットでモデルをファインチューニングできます。このセクションでは、次のシナリオを使用して、モデルのファインチューニングの目的と手順を説明します。
ユースケース
物流業界では、自然言語から構造化情報 (受信者、住所、電話番号など) を抽出する必要が頻繁にあります。Qwen3-235B-A22B などの大規模モデルはこのタスクで優れたパフォーマンスを発揮しますが、コストが高く、レイテンシーも高くなります。パフォーマンスとコストのバランスをとるために、まず大規模パラメーターモデルを使用してデータにラベルを付け、そのデータを使用して Qwen3-0.6B などの小規模モデルをファインチューニングできます。このプロセスはモデル蒸留としても知られています。
同じ構造化情報抽出タスクにおいて、元の Qwen3-0.6B モデルの精度は 50% です。ファインチューニング後、その精度は 90% を超えることができます。
受信者住所情報の例 | 構造化情報の例 |
Amina Patel - 電話番号 (474) 598-1543 - 1425 S 5th St, Apt 3B, Allentown, Pennsylvania 18104 | |
データの準備
このタスクのために教師モデル (Qwen3-235B-A22B) から Qwen3-0.6B モデルに知識を蒸留するには、まず教師モデルの API を使用して受信者の住所情報を構造化 JSON データに抽出する必要があります。このデータの生成には時間がかかる場合があります。したがって、このトピックでは、サンプルのトレーニングデータセットtrain.json と検証セットeval.json を提供しており、直接ダウンロードして使用できます。
モデル蒸留では、より大きなモデルは教師モデルとして知られています。このガイドで使用されるデータは、大規模モデルによって合成的に生成されたものであり、機密性の高いユーザー情報は一切含まれていません。
本番稼働
モデルをファインチューニングする
左側のナビゲーションウィンドウで、[モデルギャラリー]をクリックします。[Qwen3-0.6B] モデルを検索し、[トレーニング]をクリックします。

トレーニングタスクのパラメーターを設定します。次の主要なパラメーターを設定し、その他はデフォルト値のままにします。
トレーニングモード: デフォルトは SFT (教師ありファインチューニング) で、LoRA ファインチューニングメソッドを使用します。
LoRA は、モデルのパラメーターのサブセットのみを変更することでトレーニングリソースを節約する、効率的なファインチューニング技術です。
トレーニングデータセット: まず、サンプルのトレーニングデータセット train.json をダウンロードします。次に、設定ページで [OSS ファイルまたはディレクトリ] を選択し、
アイコンをクリックしてバケットを選択します。[ファイルのアップロード] をクリックして、データセットを Object Storage Service (OSS) にアップロードします。最後に、ファイルを選択します。
検証データセット: まず、検証データセット eval.json をダウンロードします。次に、[検証データセットの追加] をクリックし、トレーニングデータセットと同じ手順でファイルをアップロードして選択します。
検証データセットは、トレーニング中に、未知のデータに対するモデルのパフォーマンスを評価するために使用されます。
ModelOutput パス: デフォルトでは、ファインチューニングされたモデルは OSS に保存されます。OSS ディレクトリが空の場合は、[フォルダの作成] をクリックしてディレクトリを指定します。
リソースタイプ: [パブリックリソース] を選択します。このファインチューニングタスクには約 5 GB の GPU メモリが必要です。コンソールでは、この要件を満たす利用可能なリソース仕様がすでにフィルタリングされています。
ecs.gn7i-c16g1.4xlargeなどの仕様を選択します。ハイパーパラメーター構成:
learning_rate: 0.0005 に設定
num_train_epochs: 4 に設定
per_device_train_batch_size: 8 に設定
seq_length: 512 に設定
[トレーニング] > [OK] をクリックします。トレーニングタスクのステータスが [作成中] に変わります。ステータスが [実行中] に変わると、モデルのファインチューニングプロセスが開始されます。
トレーニングタスクを表示し、完了するまで待ちます。モデルのファインチューニングプロセスには約 10 分かかります。ファインチューニング中、タスク詳細ページにはログとメトリック曲線が表示されます。トレーニングが完了すると、ファインチューニングされたモデルは指定された OSS ディレクトリに保存されます。
後でトレーニングタスクの詳細を表示するには、左側のナビゲーションウィンドウで [モデルギャラリー] > [タスク管理] > [トレーニングタスク] をクリックし、タスク名をクリックします。

ファインチューニング済みモデルをデプロイする
トレーニングジョブの詳細ページで、[デプロイ]ボタンをクリックしてデプロイメント設定ページを開きます。[リソースタイプ]を[パブリックリソース]に設定します。0.6B モデルのデプロイには約 5 GB の GPU メモリが必要です。[リソース仕様] ドロップダウンには、この要件を満たす仕様がすでにフィルタリングされて表示されています。ecs.gn7i-c8g1.2xlargeなどの仕様を選択します。他のパラメーターはデフォルト設定のままにして、 [デプロイ] > [OK]をクリックします。
デプロイメントプロセスには約 5 分かかります。ステータスが [実行中]に変わると、デプロイメントは成功です。
後でトレーニングタスクの詳細を表示するには、左側のナビゲーションウィンドウで [モデルギャラリー] > [タスク管理] > [トレーニングタスク] をクリックし、タスク名をクリックします。

トレーニングタスクが成功した後に [デプロイ] ボタンが無効になっている場合は、出力モデルがまだ登録中であることを意味します。約 1 分間お待ちください。

モデルを呼び出すための後続の手順は、「モデルの呼び出し」セクションで説明されているものと同じです。
ファインチューニング済みモデルのパフォーマンス検証
ファインチューニングされたモデルを本番環境にデプロイする前に、そのパフォーマンスを体系的に評価して、安定性と精度を確保し、デプロイ後の予期せぬ問題を回避します。
テストデータの準備
モデルのパフォーマンスをテストするために、トレーニングデータと重複しないテストデータセットを準備します。このトピックでは、以下の精度テストコードを実行すると自動的にダウンロードされるテストセットを提供します。
テストデータはトレーニングデータと重複しないようにしてください。これにより、新しいデータに対するモデルの汎化能力をより正確に反映し、サンプルの記憶によるスコアの過大評価を回避できます。
評価指標の設計
評価基準は、実際のビジネス目標と密接に一致させる必要があります。このソリューションの例では、生成された JSON 文字列が有効かどうかを確認するだけでなく、対応するキーと値のペアが正しいかどうかも確認する必要があります。
評価メトリックはプログラムで定義する必要があります。この例の評価メトリックの実装については、以下の精度テストコードの compare_address_info メソッドを参照してください。ファインチューニング済みモデルのパフォーマンス検証
次のテストコードを実行すると、テストセットに対するモデルの精度が出力されます。
出力:
すべての予測が完了しました!結果は predicted_labels.jsonl に保存されました
サンプル数: 400
正解応答数: 382
不正解応答数: 18
精度: 95.5 %モデルのファインチューニングにおけるランダムシードと、大規模モデルの出力の確率的な性質により、得られる精度はこのトピックの結果と異なる場合があります。これは正常です。
精度は 95.5% で、元の Qwen3-0.6B モデルの 50% の精度から大幅に向上しています。これは、ファインチューニングされたモデルが物流ドメインで構造化情報を抽出する能力を大幅に向上させたことを示しています。
トレーニング時間を短縮するため、このガイドでは 4 トレーニングエポックのみを使用しており、これにより精度はすでに 90% を超えています。トレーニングエポック数を増やすことで、精度をさらに向上させることができます。
重要なリマインダー
このガイドのモデルサービスは、パブリックリソースを使用して作成されており、従量課金制で課金されます。追加料金を避けるため、終了したらサービスを停止または削除してください。

参考資料
評価や圧縮などの Model Gallery の機能の詳細については、「Model Gallery」をご参照ください。
Auto Scaling、ストレステスト、モニタリングとアラートなどの EAS 機能の詳細については、「EAS の概要」をご参照ください。

