データ構造 - Intelligent Media Services - Alibaba Cloud ドキュメントセンター

このトピックでは、Web SDK が使用するデータの型について説明します。

データ構造の概要

説明

以前の SDK バージョンには、非推奨のパラメーターとメソッドが含まれています。SDK を最新バージョンにアップグレードしてください。詳細については、「Web SDK ユーザーガイド」をご参照ください。

構造タイプ	データの型	説明
*Enum*	AICallAgentType	エージェントタイプ
	AICallAgentState	エージェントステータス
	AICallSpeakingInterruptedReason	エージェントの発話が中断された理由
	AICallVoiceprintResult	VAD フィードバック結果
	AICallErrorCode	エラーコード
*クラス*	AICallAgentInfo	エージェントの実行時情報
	AICallVisionCustomCaptureRequest	視覚理解エージェントのカスタムフレームキャプチャを構成するリクエスト
	AICallSendTextToAgentRequest	エージェントにテキストメッセージを送信するリクエスト
	AICallConfig	エージェント呼び出しを開始するための構成
	AICallTemplateConfig (非推奨)	呼び出しを開始するためのテンプレート構成パラメーター
	AICallChatSyncConfig	関連付けられたチャットエージェントセッションの構成
	AICallAgentShareConfig	エージェント共有構成
	AICallAgentConfig	呼び出しエージェントを開始および実行するための構成
	AICallAgentAsrConfig	音声認識構成
	AICallAgentTtsConfig	音声合成構成
	AICallAgentLlmConfig	大規模言語モデル構成
	AICallAgentAvatarConfig	デジタルヒューマン構成
	AICallAgentInterruptConfig	中断構成
	AICallAgentVoiceprintConfig	ボイスプリントノイズリダクション構成
	AICallAgentTurnDetectionConfig	ターン検出構成
	AICallAgentVcrResult	VCR 検出結果
	AICallAgentVcrConfig	VCR 構成
	AICallAgentVcrBaseConfig	基本 VCR 検出構成
	AICallAgentVcrFrameMotionConfig	VCR フレームモーション検出構成

データ構造の詳細

Enum

AICallAgentType

エージェントタイプ。

列挙値	値	説明
VoiceAgent	0	対話型音声応答のみをサポートし、視覚的なアバターはありません。
AvatarAgent	1	仮想アバターを持ち、音声と視覚的な対話をサポートします。
VisionAgent	2	主に視覚情報の理解と分析を担当します。
VideoAgent	3	ビデオ通話。ユーザーとエージェント間の双方向ビデオ通話をサポートします。

AICallAgentState

エージェントステータス。

列挙値	値	説明
Listening	1	リスニング中
Thinking	2	思考中
Speaking	3	発話中

AICallSpeakingInterruptedReason

エージェントの発話が中断された理由。

列挙値	値	説明
unknown	0	不明な理由
byWords	1	特定の単語が検出されたため中断されました。
byVoice	2	音声によって中断されました。
byInterruptSpeaking	3	interruptSpeaking API の呼び出しによって中断されました。
bySpeechBroadCast	4	アクティブな音声ブロードキャストによって中断されました。
byLlmQuery	5	アクティブな LLM クエリによって中断されました。

AICallVoiceprintResult

音声区間検出 (VAD) フィードバック結果。

列挙値	値	説明
Off	0	ボイスプリントノイズリダクション VAD は無効で、AI VAD も無効です。
Unregister	1	ボイスプリントノイズリダクション VAD は有効ですが、ボイスプリントの登録が完了していません。
DetectedSpeaker	2	ボイスプリントノイズリダクション VAD は有効で、主要な話者が検出されました。
UndetectedSpeaker	3	ボイスプリントノイズリダクション VAD は有効ですが、主要な話者は検出されませんでした。
DetectedSpeakerWithAIVad	4	AI VAD は有効で、主要な話者が検出されました。
UndetectedSpeakerWithAIVad	5	AI VAD は有効ですが、主要な話者は検出されませんでした。
Unknown	100	不明

AICallErrorCode

エラーコード。

列挙値	値	説明
None	0	成功
InvalidAction	-1	無効な操作
InvalidParames	-2	無効なパラメーター
NetworkError	-3	ネットワークエラー
InternalError	-4	内部エラー
BeginCallFailed	-10000	呼び出しの開始に失敗しました。
ConnectionFailed	-10001	接続の問題が発生しました。
PublishFailed	-10002	ストリームの取り込みに失敗しました。
SubscribeFailed	-10003	ストリームのプルに失敗しました。
TokenExpired	-10004	呼び出し認証の有効期限が切れました。
KickedByUserReplace	-10005	同じ名前で別のユーザーがログオンしたため、呼び出しを続行できません。
KickedBySystem	-10006	ユーザーがシステムによってキックされたため、呼び出しを続行できません。
KickedByChannelTerminated	-10007	チャンネルが破棄されたため、呼び出しを続行できません。
LocalDeviceException	-10008	オンプレミスのデバイスの問題により、呼び出しを続行できません。
AgentLeaveChannel	-10101	エージェントがチャンネルを退出しました (エージェントが呼び出しを終了しました)。
AgentPullFailed	-10102	エージェントがストリームのプルに失敗しました。
AgentASRFailed	-10103	エージェントの ASR に失敗しました。
AvatarServiceFailed	-10201	デジタルエージェントサービスの開始に失敗しました。
AvatarRoutesExhausted	-10202	同時デジタルエージェント取り込みエンドポイントの数を超えました。
AgentSubscriptionRequired	-10203	1 日の無料トライアルクォータを超えたため、呼び出しを開始できませんでした。
AgentNotFound	-10204	エージェントが見つかりませんでした (エージェント ID が存在しません)。
ChatTextMessageSendFailed	-10301	テキストメッセージの送信に失敗しました。
ChatTextMessageReceiveFailed	-10302	テキストメッセージの受信に失敗しました。
ChatVoiceRecordFailed	-10310	音声メッセージの録音に失敗しました。
ChatVoiceMessageSendFailed	-10311	音声メッセージの送信に失敗しました。
ChatVoiceMessageReceiveFailed	-10312	音声メッセージの受信に失敗しました。
ChatPlayMessageReceiveFailed	-10321	再生メッセージの受信に失敗しました。
ChatLogNotFound	-10331	チャット履歴が見つかりませんでした。
ChatAttachmentUploading	-10332	添付ファイルはまだアップロード中です。アップロードが完了した後にのみメッセージを送信できます。
UnknowError	-40000	不明なエラー

クラス

AICallAgentInfo

エージェントの実行時情報。

プロパティ	タイプ	説明
agentType	AICallAgentType	エージェントタイプ。
channelId	string	エージェントが配置されている RTC チャンネルの ID。
userId	string	エージェントが RTC チャンネルに入るための一意の識別子。
instanceId	string	エージェントが実行されているインスタンスの ID。
reqId	string	現在のエージェントを開始するためのリクエスト ID。

AICallVisionCustomCaptureRequest

視覚理解エージェントのカスタムフレームキャプチャを構成するためのリクエストモデル。

プロパティ	タイプ	説明
text	string	マルチモーダル大規模モデルをリクエストするためのテキストパラメーター。
isSingle	boolean	単一のフレームをキャプチャするかどうかを指定します。
eachDuration	number	フレームキャプチャの間隔 (秒単位)。
num	number	毎回キャプチャするイメージの数。
duration	number	連続フレームキャプチャの期間 (秒単位)。このパラメーターは、連続フレームキャプチャの場合にのみ有効です。
userData (オプション)	string	カスタムビジネス情報を含む JSON 文字列。

AICallSendTextToAgentRequest

エージェントにテキストメッセージを送信するためのリクエストモデル。

プロパティ	タイプ	説明
text	string	エージェントにクエリするテキストメッセージ (例: 「これは何ですか？」)。

AICallConfig

エージェント呼び出しを開始するための構成。

プロパティ	タイプ	説明
agentId	string	エージェント ID。
agentType	AICallAgentType	エージェントタイプ。
agentUserId (オプション)	string	エージェントの UID。空のままにすると、サービスが UID を割り当てます。
region	string	エージェントサービスが配置されているリージョン。
userId	string	現在のユーザー ID。
userJoinToken	string	現在のユーザーがミーティングに参加するためのトークン。
userData (オプション)	string	エージェントに渡されるカスタムユーザー情報。JSON 文字列を使用することをお勧めします。
chatSyncConfig (オプション)	AICallChatSyncConfig	関連付けられたチャットエージェントの構成。
agentConfig (オプション)	AICallAgentConfig	呼び出しを開始するために使用される agentConfig パラメーター。
templateConfig (オプション)	AICallTemplateConfig (非推奨)	非推奨。代わりに `agentConfig` を使用してください。

AICallTemplateConfig (非推奨)

呼び出しを開始するための TemplateConfig パラメーター。

重要

このメソッドはバージョン 2.5 以降では非推奨です。最新バージョンでは、AICallAgentConfig を使用してください。

プロパティ	タイプ	説明
agentGreeting (オプション)	string	エージェントのウェルカムメッセージ。空のままにすると、エージェントに構成された値が使用されます。
userOnlineTimeout	number	ユーザーがミーティングに参加しない場合にエージェントがタスクを閉じるまでのタイムアウト期間。値が 0 未満の場合、サーバー側のデフォルト値である 60 秒が使用されます。
userOfflineTimeout	number	ユーザーがミーティングを退出した後にエージェントがタスクを閉じるまでのタイムアウト期間。値が 0 未満の場合、サーバー側のデフォルト値である 5 秒が使用されます。
workflowOverrideParams (オプション)	object	ワークフローの上書きパラメーター。
bailianAppParams (オプション)	object	Model Studio アプリケーションセンターのパラメーター
asrMaxSilence	number	音声区間検出のしきい値。0 未満の値は、サーバー側のデフォルト値である 400 ms が使用されることを示します。有効値: 200 ms から 1200 ms。
volume	number	エージェントの発話ボリューム。有効値: 0 から 400。出力ボリューム = ワークフローの音声出力ボリューム × ボリューム / 100。0 未満の値は、サーバー側のデフォルト値である 100 が使用されることを示します。
vadLevel	number	AI VAD の感度パラメーター。デフォルト値：11。有効値：[0, 11]。 0：VAD 機能を無効にします。 1〜10：値が大きいほど、割り込みが困難になります。 11：以前の値とは大きく異なります。前処理された対話音声へのダメージが少なく、より強力な耐干渉性を提供します。
enableVoiceInterrupt	boolean	インテリジェントな中断を有効にするかどうかを指定します。
agentVoiceId (オプション)	string	エージェントの音声の音色の ID。空のままにすると、エージェントに構成された値が使用されます。
enableIntelligentSegment	boolean	インテリジェントな文の結合を有効にするかどうかを指定します。
useVoiceprint	boolean	現在の文にボイスプリントノイズリダクションを使用するかどうかを指定します。
voiceprintId (オプション)	string	ボイスプリント ID。空でない場合、現在の呼び出しでボイスプリントノイズリダクションが有効になります。
agentMaxIdleTime	number	エージェントの最大アイドル時間 (秒単位)。0 未満の値は、サーバー側のデフォルト値である 600 秒が使用されることを示します。
llmHistoryLimit	number	LLM またはマルチモーダル LLM のために保持する過去の会話ラウンドの最大数。0 未満の値は、サーバー側のデフォルト値である 10 が使用されることを示します。
enablePushToTalk	boolean	プッシュツートークモードを有効にするかどうかを指定します。
agentGracefulShutdown	boolean	グレースフルシャットダウンを有効にするかどうかを指定します。有効にすると、エージェントは現在の文をブロードキャストした後に停止します。
agentAvatarId (オプション)	string	デジタルヒューマンモデルの ID。空のままにすると、エージェントに構成された値が使用されます。
asrLanguageId (オプション)	string	ASR 言語 ID。空のままにすると、エージェントに構成された値が使用されます。
wakeUpQuery (オプション)	string	呼び出しが開始される前のユーザーの命令。エージェントは呼び出しが開始された直後に応答します。
llmSystemPrompt (オプション)	string	LLM のシステムプロンプト (例: 「あなたはフレンドリで役立つアシスタントです...」)。注: LLM ノードが Model Studio ワークフローである場合、これはサポートされません。
asrHotWords (オプション)	Array<string>	ASR ホットワードのリスト。
interruptWords (オプション)	Array<string>	会話の中断をトリガーする特定の単語やフレーズ (例: 「すみません」や「なるほど」)。

AICallAgentConfig

呼び出しエージェントを開始および実行するための構成。

プロパティ	タイプ	説明
agentGreeting (オプション)	string	エージェントのウェルカムメッセージ。空のままにすると、エージェントに構成された値が使用されます。メッセージは最大 100 文字です。
wakeUpQuery (オプション)	string	呼び出しが開始される前のユーザーの命令。エージェントは呼び出しが開始された直後に応答します。
agentMaxIdleTime	number	エージェントの最大アイドル時間 (秒単位)。時間を超えると、エージェントは自動的にオフラインになります。デフォルト値: 600 秒。
userOnlineTimeout	number	ユーザーがミーティングに参加しない場合にエージェントがタスクを閉じるまでのタイムアウト期間。デフォルト値: 60 秒。
userOfflineTimeout	number	ユーザーがミーティングを退出した後にエージェントがタスクを閉じるまでのタイムアウト期間。デフォルト値: 5 秒。
enablePushToTalk	boolean	プッシュツートークモードを有効にするかどうかを指定します。
agentGracefulShutdown	boolean	グレースフルシャットダウンを有効にするかどうかを指定します。有効にすると、エージェントは現在の文をブロードキャストした後に停止します。
volume	number	エージェントの発話ボリューム。有効値: 0 から 400。デフォルト値: 100。
workflowOverrideParams	JSONObject	ワークフローの上書きパラメーター。
enableIntelligentSegment	boolean	インテリジェントな文のセグメンテーションのスイッチ。
asrConfig	AICallAgentAsrConfig	音声認識構成。
ttsConfig	AICallAgentTtsConfig	音声合成構成。
llmConfig	AICallAgentLlmConfig	大規模言語モデル構成。
avatarConfig	AICallAgentAvatarConfig	デジタルヒューマン構成。
interruptConfig	AICallAgentInterruptConfig	中断構成。
voiceprintConfig	AICallAgentVoiceprintConfig	ボイスプリントノイズリダクション構成。
turnDetectionConfig	AICallAgentTurnDetectionConfig	ターン検出構成。
experimentalConfig	JSONObject	製品化されていないカスタム構成。
vcrConfig	AICallAgentVcrConfig	VCR 構成。

AICallChatSyncConfig

関連付けられたチャットエージェントセッションの構成パラメーター。

プロパティ	タイプ	説明
sessionId	string	関連付けられたチャットエージェントセッションの ID。
agentId	string	関連付けられたチャットエージェントの ID (同じアカウントおよびリージョンにある必要があります)。
receiverId	string	関連付けられたチャットエージェントセッションのユーザー ID。

AICallAgentShareConfig

エージェント共有構成。

プロパティ	タイプ	説明
shareId (オプション)	string	エージェント共有 ID。
agentType	AICallAgentType	エージェントのワークロードタイプ。
expireTime (オプション)	Date	有効期限。
region (オプション)	string	エージェントが配置されているリージョン。
templateConfig (オプション)	string	テンプレート構成 (JSON 文字列)。
userData (オプション)	string	エージェントに渡されるカスタムユーザー情報。

AICallAgentAsrConfig

自動音声認識 (ASR) 構成。

プロパティ	タイプ	説明
asrLanguageId (オプション)	string	ASR 言語 ID。空のままにすると、エージェントに構成された値が使用されます。有効値: zh_mandarin: 中国語 en: 英語 zh_en: 中国語-英語混合 es: スペイン語 jp: 日本語
asrMaxSilence	number	音声区間検出のしきい値。無音の期間がこのしきい値を超えると、文の中断が検出されます。デフォルト値: 400 ms。有効値: 200 ms から 1200 ms。
asrHotWords (オプション)	string[]	ASR ホットワードのリスト。制限: 最大 500 ワード、各ワードは 10 文字以内。
vadLevel	number	AI VAD の感度パラメーター。デフォルト値：11。有効値：[0, 11]。 0：VAD 機能を無効にします。 1〜10：値が大きいほど、割り込みが困難になります。 11：以前の値とは大きく異なります。前処理された対話音声へのダメージが少なく、より強力な耐干渉性を提供します。
customParams	string	自己管理型の ASR を使用する場合、実行時パラメーターを URL パラメーター形式で渡します (例: "mode=fast&sample=16000&format=wav")。
vadDuration	number	音声区間検出の最小期間しきい値。中断の秘密度をコントロールするために使用されます。値 0 (デフォルト) はこの機能を無効にします。有効値: 200 から 2000 ミリ秒。一般的な範囲は [200, 500] で、これは 1 から 4 文字に相当します。0 未満の値を設定した場合、その値はサーバーに送信されません (サーバーはデフォルトでこの機能を無効にします)。

AICallAgentTtsConfig

テキスト読み上げ (TTS) 構成。

プロパティ	タイプ	説明
agentVoiceId (オプション)	string	エージェントの音声の音色の ID。空のままにすると、エージェントに構成された値が使用されます。
pronunciationRules	JSONObject[]	発音ルールの配列。最大 20 個のルールがサポートされます。未定義または空の配列の場合、ルールは使用されません。例: `[ { "Word": "overlap", // 対象の単語 "Pronunciation": "chong die", // 置換後の発音 "Type": "replacement" // 多音字ルール }, { "Word": "action", "Pronunciation": "hang dong", "Type": "replacement" } ]`
speechRate	number	TTS の再生速度。すべての TTS タイプがサポートされます。有効値: [0.5, 2.0]。デフォルト値: 1.0。0 未満の値を設定した場合、その値はサーバーに送信されません (コンソールで構成された値が使用されます)。
languageId	string	TTS 言語コード。TTS タイプが MiniMax の場合にのみ有効です。
emotion	string	TTS の感情タイプ。TTS タイプが MiniMax の場合にのみ有効です。
modelId	string	TTS モデル ID。現在、MiniMax のみがサポートされています。有効値: speech-01-turbo, speech-02-turbo。

AICallAgentLlmConfig

大規模言語モデル (LLM) 構成。

プロパティ	タイプ	説明
llmHistoryLimit	number	保持する過去の会話ラウンドの最大数。デフォルト値: 10。
llmSystemPrompt (オプション)	string	LLM のシステムプロンプト。
bailianAppParams	JSONObject	Model Studio アプリケーションセンターのパラメーター
llmCompleteReply	boolean	完全な LLM 結果を送信するかどうかを指定します。説明これを有効にすると、結果が生成された後、llmReplyCompleted イベントコールバックを通じて完全な LLM 結果が返されます。
openAIExtraQuery (オプション)	string	OpenAI プロトコルベースの LLM のための追加クエリパラメーター。説明パラメーターは key=value 形式である必要があります。複数のパラメーターを区切るにはアンパサンド (&) を使用します。すべての値は文字列である必要があります。

AICallAgentAvatarConfig

デジタルヒューマン構成。

プロパティ	タイプ	説明
agentAvatarId (オプション)	string	デジタルヒューマンモデルの ID。空のままにすると、エージェントに構成された値が使用されます。

AICallAgentInterruptConfig

中断構成。

プロパティ	タイプ	説明
enableVoiceInterrupt	boolean	インテリジェントな中断を有効にするかどうかを指定します。
interruptWords (オプション)	string[]	会話の中断をトリガーする特定の単語やフレーズ。

AICallAgentVoiceprintConfig

ボイスプリントノイズリダクション構成。

プロパティ	タイプ	説明
useVoiceprint	boolean	現在の文にボイスプリントノイズリダクションを使用するかどうかを指定します。
voiceprintId (オプション)	string	ボイスプリント ID。空でない場合、現在の呼び出しでボイスプリントノイズリダクションが有効になります。

AICallAgentTurnDetectionConfig

ターン検出構成。

プロパティ	タイプ	説明
turnEndWords (オプション)	string[]	文を区切るための特定の単語 (例: 「以上」や「終わりました」)。
mode	AICallTurnDetectionMode	ユーザーが話し終えたかどうかを判断するモード。デフォルトは Semantic で、AI を使用してセマンティクスに基づいてユーザーが話し終えたかどうかを判断します。
semanticWaitDuration	number	セマンティックな文の区切りのためのカスタム待機時間 (ミリ秒単位)。有効値: [0, 10000]。0 未満の値を設定した場合、その値はサーバーに送信されません (サーバー側のデフォルト値 -1 が使用され、AI が適切な待機時間を自動的に決定します)。説明 AICallTurnDetectionMode が Normal に設定されている場合、semanticWaitDuration フィールドは無効です。

AICallAgentVcrResult

VCR 検出結果。

プロパティ	タイプ	説明
data	JSONObject	エージェントから返されたすべての VCR 検出結果。
stillFrameMotion	FrameMotionResult	静止フレーム検出結果。
invalidFrameMotion	FrameMotionResult	無効フレーム検出結果。
peopleCount	PeopleCountResult	人数検出結果。
equipment	EquipmentResult	電子デバイス検出結果。
headMotion	HeadMotionResult	頭の動き検出結果。

AICallAgentVcrConfig

VCR 構成。

プロパティ	タイプ	説明
data	JSONObject	ユーザーが JSON オブジェクトを渡すと、それはキャッシュされます。その後、そのオブジェクトを使用して JSON 文字列が生成され、カスタム拡張が可能になります。
stillFrameMotion	AICallAgentVcrFrameMotionConfig	VCR 静止フレーム検出構成。
invalidFrameMotion	AICallAgentVcrFrameMotionConfig	VCR 無効フレーム検出構成。
peopleCount	AICallAgentVcrBaseConfig	VCR リアルタイム人数検出構成。
equipment	AICallAgentVcrBaseConfig	VCR 電子デバイス検出構成。
headMotion	AICallAgentVcrBaseConfig	VCR 頭の動き検出構成。

AICallAgentVcrBaseConfig

基本 VCR 検出構成。

プロパティ	タイプ	説明
enable	boolean	この機能を有効にするかどうかを指定します。

AICallAgentVcrFrameMotionConfig

VCR フレームモーション検出構成。

プロパティ	タイプ	説明
callbackDelay	number	コールバックがトリガーされるまでの遅延時間 (ミリ秒単位)。デフォルト値: 3000 ms。