すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Services:SubmitIProductionJob

最終更新日:Apr 02, 2026

SubmitIProductionJob を呼び出して、インテリジェント制作ジョブを送信します。

操作説明

これは非同期インターフェイスです。タスクを送信すると、インターフェイスはすぐにリクエスト ID を返し、タスクを非同期処理のためにキューに入れます。最終結果はコールバック通知を介して配信されます。または、Query Intelligent Production Task 操作を呼び出して、タスクステータスを確認することもできます。

今すぐお試しください

この API を OpenAPI Explorer でお試しください。手作業による署名は必要ありません。呼び出しに成功すると、入力したパラメーターに基づき、資格情報が組み込まれた SDK コードが自動的に生成されます。このコードをダウンロードしてローカルで使用できます。

テスト

RAM 認証

下表に、この API を呼び出すために必要な認証情報を示します。認証情報は、RAM (Resource Access Management) ポリシーを使用して定義できます。以下で各列名について説明します。

  • アクション:特定のリソースに対して実行可能な操作。ポリシー構文ではAction要素として指定します。

  • API:アクションを具体的に実行するための API。

  • アクセスレベル:各 API に対して事前定義されているアクセスの種類。有効な値:create、list、get、update、delete。

  • リソースタイプ:アクションが作用するリソースの種類。リソースレベルでの権限をサポートするかどうかを示すことができます。ポリシーの有効性を確保するため、アクションの対象として適切なリソースを指定してください。

    • リソースレベルの権限を持つ API の場合、必要なリソースタイプはアスタリスク (*) でマークされます。ポリシーのResource要素で対応する ARN を指定してください。

    • リソースレベルの権限を持たない API の場合、「すべてのリソース」と表示され、ポリシーのResource要素でアスタリスク (*) でマークされます。

  • 条件キー:サービスによって定義された条件のキー。このキーにより、きめ細やかなアクセス制御が可能になります。この制御は、アクション単体に適用することも、特定のリソースに対するアクションに適用することもできます。Alibaba Cloud は、サービス固有の条件キーに加えて、すべての RAM 統合サービスに適用可能な一連の共通条件キーを提供しています。

  • 依存アクション:ある特定のアクションを実行するために、前提として実行が必要となる他のアクション。依存アクションの権限も RAM ユーザーまたは RAM ロールに付与する必要があります。

アクション

アクセスレベル

リソースタイプ

条件キー

依存アクション

ice:SubmitIProductionJob

create

*All Resource

*

なし なし

リクエストパラメーター

パラメーター

必須 / 任意

説明

Name

string

任意

タスクの名前。名前は最大 100 文字です。

测试任务

FunctionName

string

必須

使用するアルゴリズム機能。有効な値:

  • Cover: インテリジェントカバー

  • VideoClip: ビデオ要約

  • VideoDelogo: ビデオロゴ除去

  • VideoDetext: ビデオテキスト除去

  • CaptionExtraction: 字幕抽出

  • VideoGreenScreenMatting: グリーンバック合成

  • FaceBeauty: 顔美化

  • VideoH2V: 横長動画の縦長動画への変換

  • MusicSegmentDetect: コーラス検出

  • AudioBeatDetection: ビート検出

  • AudioQualityAssessment: 音質評価

  • SpeechDenoise: 音声ノイズ除去

  • AudioMixing: オーディオミキシング

  • MusicDemix: 楽曲分離

Cover

Input

object

必須

入力メディア。Object Storage Service (OSS) オブジェクトとメディア ID をサポートします。

入力ファイルの要件はアルゴリズム機能によって異なります。詳細については、以下の補足情報をご参照ください。

Type

string

必須

入力メディアのタイプ。有効な値:

  • OSS: OSS パス

  • Media: メディア ID

OSS

Media

string

必須

入力メディア。Object Storage Service (OSS) URI またはメディア ID を指定できます。 OSS URI は、次のいずれかの形式で指定できます。

  1. oss://bucket/object

  2. http(s)://bucket.oss-[RegionId].aliyuncs.com/object これらの形式では、bucket はご利用の OSS バケットの名前、object はファイルパスです。バケットは、ご利用のプロジェクトと同じリージョンにある必要があります。

oss://bucket/object

Output

object

必須

出力メディア。Object Storage Service (OSS) オブジェクトとメディア ID をサポートします。

出力ファイルはアルゴリズム機能によって異なります。詳細については、以下の補足情報をご参照ください。

Type

string

必須

出力メディアのタイプ。有効な値:

  • OSS: OSS パス

  • Media: メディア ID

OSS

Biz

string

任意

メディアアセットが属するサービス。

IMS

Media

string

必須

出力メディア。TypeOSS に設定する場合は OSS URI を指定します。TypeMedia に設定する場合はメディア ID を指定します。

OSS URI は、次のいずれかの形式で指定できます。

  1. oss://bucket/object

  2. http(s)://bucket.oss-[RegionId].aliyuncs.com/object これらの形式では、bucket はご利用の OSS バケットの名前、object はファイルパスです。バケットは、ご利用のプロジェクトと同じリージョンにある必要があります。

メディア ID について:

  • 既存のメディア ID を指定できます。

    • Biz パラメーターを省略すると、デフォルトでソースメディアアセットのサービスが使用されます。

  • このパラメーターを空のままにすると、新しいメディアアセットを作成できます。

    • Biz の値は、メディアアセットを IMS または VOD のどちらに書き込むかを決定します。Biz を指定しない場合、システムはソースメディアアセットのサービスを使用します。ソースサービスが利用できない場合、システムはデフォルトで IMS を使用します。

説明

OSS URI でプレースホルダーを使用できます。例: oss://example-****/iproduction/{source}-{timestamp}-{sequenceId}.png。次のプレースホルダーがサポートされています。

  • {source}: 入力ファイルの名前。

  • {timestamp}: Unix タイムスタンプ。

  • {sequenceId}: シーケンス番号。

  • {resultType}: 出力ファイルのタイプ。サーバーがこのタイプを決定します。 プレースホルダーはオプションです。ただし、インテリジェントカバーなど、複数の出力を生成するアルゴリズムの場合、出力ファイルパスが一意であることを保証するために、{sequenceId} のようなシーケンスプレースホルダーを含める必要があります。

oss://bucket/object

OutputUrl

string

任意

出力ファイルの OSS URI。このパラメーターは、TypeMedia に設定されている場合にのみ使用します。バケットは IMS または VOD に登録されている必要があります。

http(s)://bucket.oss-[RegionId].aliyuncs.com/object

TemplateId

string

任意

テンプレート ID。

****20b48fb04483915d4f2cd8ac****

JobParams

string

任意

アルゴリズムタスクのパラメーター (JSON 形式)。具体的なパラメーターはアルゴリズム機能によって異なります。詳細については、補足情報をご参照ください。

{"Model":"gif"}

ScheduleConfig

object

任意

タスクのスケジューリング構成。

PipelineId

string

任意

パイプライン ID。

5246b8d12a62433ab77845074039c3dc

Priority

integer

任意

タスクの優先度。有効な値: 1~10。値が小さいほど優先度が高くなります。

6

UserData

string

任意

ユーザーデータ。システムはこのデータを変更せずに応答で返します。データは最大 256 文字です。

{"test":1}

ModelId

string

任意

アルゴリズムモデルの ID。このパラメーターを省略すると、システムは指定された機能のデフォルトモデルを使用します。ほとんどの場合、このパラメーターを設定する必要はありません。

以下のアルゴリズム機能では、デフォルト以外のモデルが利用可能です。

  • VideoDetext
    • ModelId = algo-video-detext-new: より高品質な結果を提供するビデオテキスト除去モデル。このモデルは、デフォルトモデルよりも処理が遅く、費用も高くなります。

入力および出力フィールド

カバー

動画ファイルを入力し、複数の画像(デフォルトで 3 枚)を出力します。出力ファイルを区別するためにプレースホルダーを使用します。出力形式は、静的画像の場合は PNG、アニメーション画像の場合は GIF であり、JobParams 内のパラメーターによって決定されます。

VideoDelogo

動画ファイルを入力し、ロゴを除去した MP4 動画を出力します。

VideoDetext

動画ファイルを入力し、字幕を除去した MP4 動画を出力します。

CaptionExtraction

動画ファイルを入力し、SRT 形式の字幕ファイルを出力します。

VideoGreenScreenMatting

動画ファイルを入力し、グリーンバックマッティングを適用した動画を出力します。出力形式は MP4 または WebM であり、JobParams 内のパラメーターに応じて決定されます。

FaceBeauty

動画ファイルを入力し、顔の美肌効果を適用した動画を出力します。出力形式は MP4 です。

VideoH2V

動画ファイルを入力し、横方向から縦方向へ変換します。出力は MP4 動画です。

MusicSegmentDetect

音声ファイルを入力し、コーラス検出結果を JSON ファイルで出力します。

AudioBeatDetection

音声ファイルを入力し、ビート検出結果を JSON ファイルで出力します。

AudioQualityAssessment

音声ファイルを入力します。出力ファイルは生成されません。QueryIProductionJob 操作の応答に、音声品質評価結果が直接返されます。

SpeechDenoise

音声ファイルを入力し、ノイズ除去済みの音声ファイル(WAV 形式)を出力します。

AudioMixing

音声ファイルを入力し、ミキシング後の音声ファイル(WAV 形式)を出力します。音声ファイルの入力方法については、以下の JobParams パラメーターの説明をご参照ください。

MusicDemix

入力音声ファイル(楽曲)を「ボーカル」と「伴奏」の 2 トラックに分離します。{resultType} プレースホルダーを出力パスに含める必要があります。これにより、各トラックごとに個別のファイルが生成されます。

JobParams JSON フィールド

カバー

  • Model:文字列型。スマートカバーモデルです。このパラメーターを空のままにすると、静的イメージのカバーが生成されます。gif を指定すると、アニメーション GIF のカバーが生成されます。

VideoDelogo

  • LogoModel:文字列型。除去対象のロゴの種類です。有効な値は tv(テレビ局のロゴ)および internet(オンラインメディアのロゴ)です。カンマで区切ることで、複数の種類を指定できます。

  • Boxes:文字列型。対象ロゴ領域の位置を、左上隅からの正規化距離で指定します。形式は [xmin, ymin, width, height] です。最大 2 個のロゴ領域を指定できます。例:"[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]"。

VideoDetext

  • LimitRegion:リスト型。字幕検出エリアを、左上隅からの正規化距離で指定します。形式は [xmin, ymin, width, height] です。複数の検出エリアを指定できます。例:[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]注:このパラメーターを設定しない場合、デフォルトの検出エリアは動画の下部 30 % になります。

  • Time:リスト型。字幕を除去するグローバルな時間範囲(秒単位)を指定します。形式は [開始時刻, 終了時刻] です。例:[5, 20] とすると、動画の 5 秒目から 20 秒目までの字幕のみが除去されます。
    • Time パラメーターは、[5, 20] のような 1 次元配列で、単一の時間セグメントを指定できます。

    • Time パラメーターは、[[5, 20], [25, 43], [51, 80]] のような 2 次元配列で、複数の時間セグメントを指定することもできます。ただし、この形式は modelIdalgo-video-detext-new に設定されている場合のみサポートされます。

CaptionExtraction

  • fps:整数型(任意)。サンプリングフレームレートです。有効範囲は [2, 10] です。デフォルト値は 5 です。

  • roi:リスト型。字幕の認識対象領域(ROI)です。この ROI 内に含まれる字幕のみが抽出されます。形式は [[上端, 下端], [左端, 右端]] で、正規化された値を使用します。例:[[0.5, 1], [0, 1]] は動画の下半分を指定します。このパラメーターを指定しない場合、デフォルトの認識エリアは動画の下部 1/4 になります。

  • lang:文字列型。認識言語です。有効な値は ch(中国語)、en(英語)、ch_ml(中国語・英語混在)です。デフォルト値は ch です。

  • track:文字列型。main を指定すると、メインの字幕トラックのみが抽出されます。このパラメーターを指定しない場合、システムは指定された領域内に表示されるすべての字幕をデフォルトで抽出します。

VideoGreenScreenMatting

  • bgimage:文字列型。マッティング後にオーバーレイする背景画像の URL です。例:http://example-image-****.example-location.aliyuncs.com/example/example.jpg。このパラメーターを指定しない場合、出力は alpha チャンネルを含む WebM 動画になります。

FaceBeauty

  • beauty_params:文字列型。顔の美肌処理機能のパラメーターです。例:"whiten=20,smooth=50,face_thin=50"。詳細については、「パラメーターの説明」をご参照ください。

VideoH2V

該当なし

MusicSegmentDetect

該当なし

AudioBeatDetection

該当なし

AudioQualityAssessment

該当なし

SpeechDenoise

入力音声は、サンプルレートが 16 kHz または 48 kHz の WAV 形式である必要があります。

AudioMixing

  • inputs:リスト型。ミキシング対象の音声トラックの URI を格納したリストです。現在は 1 トラックのみサポートされています。例:{"file":"http://example-bucket-****.oss-cn-shanghai.aliyuncs.com/2.mp4"}

MusicDemix

該当なし

レスポンスフィールド

フィールド

説明

object

応答オブジェクト

RequestId

string

リクエスト ID

C1849434-FC47-5DC1-92B6-F7EAAFE3851E

JobId

string

インテリジェントジョブ ID

****20b48fb04483915d4f2cd8ac****

成功レスポンス

JSONJSON

{
  "RequestId": "C1849434-FC47-5DC1-92B6-F7EAAFE3851E",
  "JobId": "****20b48fb04483915d4f2cd8ac****"
}

エラーコード

完全なリストについては、「エラーコード」をご参照ください。

変更履歴

完全なリストについては、「変更履歴」をご参照ください。