すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Services:データ構造

最終更新日:Mar 20, 2026

iOS SDK で使用されるデータ型について説明します。

データ構造の概要

説明

旧バージョンの SDK には非推奨のパラメーターおよびメソッドが含まれています。最新バージョンの SDK にアップグレードしてください。詳細については、「iOS ユーザーガイド」をご参照ください。

構造タイプ

データの型

説明

Enum

ARTCAICallAgentType

エージェントタイプ

ARTCAICallAgentState

エージェント状態

ARTCAICallAudioProfile

オーディオエンコーディング構成

ARTCAICallAudioScenario

オーディオシナリオ構成

ARTCAICallAgentViewMode

エージェントビューのレンダリングモード

ARTCAICallAgentViewMirrorMode

エージェントビューミラーモード

ARTCAICallAgentViewRotationMode

エージェントビューローテーションモード

ARTCAICallNetworkQuality

ネットワークステータス

ARTCAICallSpeakingInterruptedReason

エージェントの発話が中断された理由

ARTCAICallVoiceprintResult

VAD 結果

ARTCAICallErrorCode

エラーコード

ARTCAICallConnectionStatus

通話中のネットワーク接続ステータス

ARTCAICallTurnDetectionMode

ユーザーの発話終了を検出する方法

Class

ARTCAICallAgentInfo

エージェントランタイム情報

ARTCAICallAudioConfig

通話オーディオ構成

ARTCAICallViewConfig

エージェントビュー構成。デジタルヒューマンなど、レンダリングが必要なエージェント向けの構成を行います。

ARTCAICallVisionConfig

視覚理解エージェントのランタイム構成

ARTCAICallVisionCustomCaptureRequest

視覚理解エージェント向けのカスタムフレームキャプチャを有効にするリクエストモデル

ARTCAICallSendTextToAgentRequest

エージェントにメッセージを送信して Model をリクエストします。

ARTCAICallConfig

エージェント通話を開始するための構成

ARTCAICallTemplateConfig (非推奨)

通話を開始するために使用される TemplateConfig パラメーター

ARTCAICallChatSyncConfig

チャットエージェントセッション構成パラメーター

ARTCAICallAgentShareConfig

エージェント共有構成情報

ARTCAICallVideoConfig

通話のローカルビデオ構成

ARTCAICallAgentConfig

通話のエージェント起動およびランタイム構成

ARTCAICallAgentAsrConfig

音声認識構成

ARTCAICallAgentTtsConfig

音声合成構成

ARTCAICallAgentLlmConfig

大規模言語モデル (LLM) 構成

ARTCAICallAgentAvatarConfig

デジタルヒューマン構成

ARTCAICallAgentInterruptConfig

割り込み構成

ARTCAICallAgentVoiceprintConfig

ボイスプリントノイズ除去構成

ARTCAICallAgentTurnDetectionConfig

ターン検出構成

ARTCAICallAgentVcrResult

VCR 検出結果

ARTCAICallAgentVcrConfig

VCR 構成

ARTCAICallAgentVcrBaseConfig

ベース VCR 検出構成

ARTCAICallAgentVcrFrameMotionConfig

VCR ビデオフレーム検出構成

ARTCAICallExperimentalConfig

特定のロジックポリシーを制御するための実験的パラメーター

ARTCAICallAgentAmbientConfig

通話環境パラメーター

ARTCAICallAgentAutoSpeechContent

自動発話シナリオ(例:応答や能動的な質問)におけるエージェントの発話内容

ARTCAICallAgentAutoSpeechLlmPending

LLM 応答が遅延した場合の自動発話構成

ARTCAICallAgentAutoSpeechUserIdle

ユーザーが無言状態の場合のエージェント質問構成

ARTCAICallAgentBackChanneling

バックチャネリング用構成モジュール。有効にすると、エージェントは特定のトリガーポイントでランダムに短い応答を再生します。

データ構造の詳細

Enum

ARTCAICallAgentType

エージェントタイプ

列挙値

説明

VoiceAgent

0

視覚的表現なしの音声のみのインタラクション

AvatarAgent

1

音声および視覚的インタラクションをサポートする視覚的表現

VisionAgent

2

視覚情報の理解と分析に特化

VideoAgent

3

ユーザーとエージェント間の双方向ビデオ通話

ARTCAICallAgentState

エージェント状態

列挙値

説明

Listening

1

リスニング中

Thinking

2

思考中

Speaking

3

発話中

ARTCAICallAudioProfile

オーディオエンコーディング構成

列挙値

説明

LowQualityMode

0x0000

低品質オーディオモード。デフォルトサンプルレート:8000 Hz。モノラルチャンネル。最大エンコーディングビットレート:12 kbps

BasicQualityMode

0x0001

標準品質オーディオモード。デフォルトサンプルレート:16000 Hz。モノラルチャンネル。最大エンコーディングビットレート:24 kbps

HighQualityMode

0x0010

(デフォルト)高品質オーディオモード。デフォルトサンプルレート:48000 Hz。モノラルチャンネル。最大エンコーディングビットレート:64 kbps

StereoHighQualityMode

0x0011

ステレオ高品質オーディオモード。デフォルトサンプルレート:48000 Hz。ステレオチャンネル。最大エンコーディングビットレート:80 kbps

SuperHighQualityMode

0x0012

超高品質オーディオモード。デフォルトサンプルレート:48000 Hz。モノラルチャンネル。最大エンコーディングビットレート:96 kbps

StereoSuperHighQualityMode

0x0013

ステレオ超高品質オーディオモード。デフォルトサンプルレート:48000 Hz。ステレオチャンネル。最大エンコーディングビットレート:128 kbps

ARTCAICallAudioScenario

オーディオシナリオ構成

列挙値

説明

DefaultMode

0x0000

一般的なリアルタイム通信シナリオに推奨

MusicMode

0x0300

高忠実度音楽モード。音楽指導や高品質な音楽再生を必要とするシナリオに推奨

ARTCAICallAgentViewMode

エージェントビューのレンダリングモード

列挙値

説明

Auto

0

自動モード

Stretch

1

ストレッチモード

Fill

2

フィルモード

Crop

3

クロップモード

ARTCAICallAgentViewMirrorMode

エージェントビューミラーモード

列挙値

説明

OnlyFrontCameraPreviewEnabled

0

フロントカメラプレビューのみミラー表示。他のビューはミラー表示しません。

AllEnabled

1

すべてのビューのミラー表示を有効化

AllDisabled

2

すべてのビューのミラー表示を無効化

ARTCAICallAgentViewRotationMode

エージェントビューローテーションモード

列挙値

説明

Rotation_0

0

ビデオビューの回転角度:0 度

Rotation_90

1

ビデオビューの回転角度:90 度

Rotation_180

2

ビデオビューの回転角度:180 度

Rotation_270

3

ビデオビューの回転角度:270 度

ARTCAICallNetworkQuality

ネットワークステータス

列挙値

説明

Excellent

0

ネットワーク品質が優れています。ビデオとオーディオがスムーズでクリアです。

Good

1

ネットワーク品質が良好です。スムーズさと明瞭さは Excellent とほぼ同等です。

Poor

2

ネットワーク品質が低下しています。スムーズさと明瞭さに軽微な問題がありますが、通信に支障はありません。

Bad

3

ネットワーク品質が悪化しています。ビデオにコマ落ちが発生しますが、オーディオは通信に使用可能です。

VeryBad

4

ネットワーク品質が非常に悪化しています。通信がほぼ不可能です。

Disconnect

5

ネットワークが切断されました。

Unknow

6

不明

ARTCAICallSpeakingInterruptedReason

エージェントの発話が中断された理由

列挙値

説明

unknown

0

理由不明

byWords

1

特定の単語が検出されました。

byVoice

2

音声による割り込み

byInterruptSpeaking

3

interruptSpeaking API が呼び出されました。

bySpeechBroadCast

4

音声ブロードキャストが中断されました。

byLlmQuery

5

アクティブな LLM クエリが中断されました。

ARTCAICallVoiceprintResult

VAD 結果

列挙値

説明

Off

0

ボイスプリントノイズ除去 VAD が無効です。AIVAD も無効です。

Unregister

1

ボイスプリントノイズ除去 VAD は有効ですが、ボイスプリント登録が未完了です。

DetectedSpeaker

2

ボイスプリントノイズ除去 VAD は有効で、主要話者が識別されています。

UndetectedSpeaker

3

ボイスプリントノイズ除去 VAD は有効ですが、主要話者が識別されていません。

DetectedSpeakerWithAIVad

4

AIVAD は有効で、主要話者が識別されています。

UndetectedSpeakerWithAIVad

5

AIVAD は有効ですが、主要話者が識別されていません。

Unknown

100

不明

ARTCAICallErrorCode

エラーコード

列挙値

説明

None

0

成功

InvalidAction

-1

無効な操作

InvalidParames

-2

無効なパラメーター

NetworkError

-3

ネットワークエラー

InternalError

-4

内部エラー

BeginCallFailed

-10000

通話の開始に失敗しました。

ConnectionFailed

-10001

接続に問題があります。

PublishFailed

-10002

ストリームの取り込みに失敗しました

SubscribeFailed

-10003

ストリームのプルに失敗しました。

TokenExpired

-10004

通話認証の有効期限が切れました。

KickedByUserReplace

-10005

同一名でのログインにより通話が失敗しました。

KickedBySystem

-10006

システムによりユーザーが強制退出されたため通話が失敗しました。

KickedByChannelTerminated

-10007

チャネルが破棄されたため通話が失敗しました。

LocalDeviceException

-10008

ローカルデバイスの問題により通話が失敗しました。

AgentLeaveChannel

-10101

エージェントがチャネルから退出しました(通話終了)。

AgentPullFailed

-10102

エージェントのストリームプルに失敗しました。

AgentASRFailed

-10103

エージェント ASR に失敗しました。

AvatarServiceFailed

-10201

デジタルエージェントサービスの開始に失敗しました。

AvatarRoutesExhausted

-10202

同時デジタルエージェントルート数の上限を超えました。

AgentSubscriptionRequired

-10203

通話開始が日次の無料試用クォータを超えていました。

AgentNotFound

-10204

エージェントが見つかりません(エージェント ID が存在しません)。

ChatTextMessageSendFailed

-10301

テキストメッセージの送信に失敗しました。

ChatTextMessageReceiveFailed

-10302

テキストメッセージの受信に失敗しました。

ChatVoiceRecordFailed

-10310

音声メッセージの録音に失敗しました。

ChatVoiceMessageSendFailed

-10311

音声メッセージの送信に失敗しました。

ChatVoiceMessageReceiveFailed

-10312

音声メッセージの受信に失敗しました。

ChatPlayMessageReceiveFailed

-10321

再生メッセージの受信に失敗しました。

ChatLogNotFound

-10331

チャットログが見つかりません。

ChatAttachmentUploading

-10332

添付ファイルがまだアップロード中です。メッセージを送信する前にアップロードが完了するまでお待ちください。

UnknowError

-40000

不明なエラー

ARTCAICallTurnDetectionMode

ユーザーの発話終了を検出する方法

列挙値

説明

Normal

0

通常モード。AI を使用したセマンティック分析は行わず、ASR の無音継続時間で発話終了を検出します。

Semantic

セマンティックモード。AI を使用して文脈とセマンティクスを分析し、発話終了を検出します。

ARTCAICallConnectionStatus

通話中のネットワーク接続ステータス

列挙値

説明

Init

0

初期化完了

Disconnected

1

ネットワーク接続が切断されました。

Connecting

2

ネットワーク接続を確立中

Connected

3

ネットワーク接続済み

Reconnecting

4

ネットワークに再接続中

Failed

5

ネットワーク接続に失敗しました。

Class

ARTCAICallAgentInfo

エージェントランタイム情報

プロパティ名

説明

agentId

String

現在のエージェント ID

agentType

ARTCAICallAgentType

エージェントタイプ

channelId

String

エージェントが所属する RTC チャネル ID

uid

String

RTC チャネルに参加するエージェントの一意の識別子

instanceId

String

現在のエージェントランタイムのインスタンス ID

requestId

String

現在のエージェントを開始するリクエスト ID

region

String?

エージェントが配置されているリージョン

ARTCAICallAudioConfig

通話のオーディオ構成を指定します。

プロパティ名

説明

audioProfile

ARTCAICallAudioProfile

オーディオエンコーディング構成。デフォルト:HighQualityMode

audioScenario

ARTCAICallAudioScenario

オーディオシナリオ構成。デフォルト:ARTCAICallAudioSceneMusicMode

ARTCAICallViewConfig

このクラスはエージェントビュー構成を提供し、デジタルヒューマンなど、レンダリングが必要なエージェント向けの構成を行います。

プロパティ名

説明

view

UIView

レンダリングビュー

viewMode

ARTCAICallAgentViewMode

画像レンダリングモード

viewMirrorMode

ARTCAICallAgentViewMirrorMode

画像ミラーモード

viewRotationMode

ARTCAICallAgentViewRotationMode

画像回転モード

ARTCAICallVisionConfig

視覚理解エージェントのランタイム構成を指定します。

プロパティ名

説明

preview

UIView?

プレビュー。空の場合はプレビューなし(ストリームアップストリーミングのみ)

viewMode

ARTCAICallAgentViewMode

プレビュー画像レンダリングモード

viewMirrorMode

ARTCAICallAgentViewMirrorMode

プレビュー画像ミラーモード

viewRotationMode

ARTCAICallAgentViewRotationMode

プレビュー画像回転モード

dimensions

CGSize

ストリーム取り込み解像度

frameRate

Int

ストリームインジェストフレームレート

bitrate

Int

ストリーム取り込みビットレート

keyFrameInterval

Int

ストリームアップストリーミングキーフレーム間隔(ミリ秒)

useHighQualityPreview

Bool

高精細プレビューを使用します。無効にすると、SDK が自動調整します。

cameraCaptureFrameRate

Int

プレビュー解像度(デフォルト:15 fps)

ARTCAICallVisionCustomCaptureRequest

視覚理解エージェント向けのカスタムフレームキャプチャを有効にするリクエストモデル

プロパティ名

説明

text

String

マルチモーダル大規模モデルリクエストのテキストパラメーター

enableASR

Bool

ASR 結果を大規模モデルへの入力として渡します。

isSingle

Bool

シングルフレームキャプチャ

eachDuration

UInt

フレームキャプチャ間隔(秒)

num

UInt

フレームキャプチャごとの画像枚数

duration

UInt

連続フレームキャプチャの持続時間(秒)。連続キャプチャ時のみ適用されます。

userData

String?

カスタムビジネス情報を含む JSON 文字列

ARTCAICallSendTextToAgentRequest

エージェントにテキストメッセージを送信するためのリクエストモデル。

プロパティ名

説明

text

String

エージェントに尋ねるテキストメッセージ(例:「これは何ですか?」)

ARTCAICallConfig

エージェント通話を開始するための構成を指定します。

プロパティ名

説明

agentId

String

エージェント ID

agentType

ARTCAICallAgentType

エージェントタイプ。エージェント ID のタイプと一致させる必要があります。一致しない場合、エージェント起動に失敗します。

agentUserId

String?

エージェント UID。空の場合は、サービスが割り当てます。

region

String

エージェントサービスが配置されているリージョン。エージェント ID のリージョンと一致させる必要があります。一致しない場合、エージェント起動に失敗します。

userId

String

現在のユーザー ID

userJoinToken

String

現在のユーザーの参加トークン

userData

[String: Any]?

エージェントに渡すユーザー定義情報

agentConfig

ARTCAICallAgentConfig?

通話を開始するために使用される agentConfig パラメーター

audioConfig

ARTCAICallAudioConfig?

ローカルオーディオ構成

videoConfig

ARTCAICallVideoConfig?

ローカルビデオ構成。VisionAgent または VideoAgent の場合のみ適用されます。

chatSyncConfig

ARTCAICallChatSyncConfig?

関連付けられたチャットエージェント構成

templateConfig

ARTCAICallTemplateConfig (非推奨)?

非推奨。代わりに agentConfig を使用してください。

ARTCAICallTemplateConfig (非推奨)

TemplateConfig パラメーターは通話を開始するために使用されます。

重要

このメソッドはバージョン 2.5 以降で非推奨になりました。ARTCAICallAgentConfig を代わりに使用してください。

プロパティ名

説明

agentGreeting

String?

エージェントの挨拶文。空の場合はエージェントのデフォルト値を使用します。最大長:100 文字

userOnlineTimeout

Int32

ユーザーが参加しない場合にタスクを終了するまでの待機時間。負の値の場合はサーバーデフォルト(60 秒)を使用します。

userOfflineTimeout

Int32

ユーザーが退出後にタスクを終了するまでの待機時間。負の値の場合はサーバーデフォルト(5 秒)を使用します。

workflowOverrideParams

[String: Any]?

ワークフロー上書きパラメーター

bailianAppParams

[String: Any]?

Alibaba Cloud Model Studio アプリケーションセンターのパラメーター

asrMaxSilence

Int32

音声セグメンテーションしきい値。範囲:200~1200 ms。負の値の場合はサーバーデフォルト(400 ms)を使用します。

volume

Int32

エージェントの発話音量。範囲:0~400。出力音量 = ワークフローの発話出力音量 × volume ÷ 100。負の値の場合はサーバーデフォルト(100)を使用します。

vadLevel

Int32

VAD 感度設定。デフォルト: 11。有効範囲: [0, 11]

  • 0 は VAD を無効にします。

  • 1~10:数値が大きいほど割り込みが難しくなります。

  • 11 は以前の値とは大きく異なり、前処理による歪みが少なく、ノイズ耐性が向上します。

enableVoiceInterrupt

Bool

インテリジェント割り込みを有効化

agentVoiceId

String?

エージェント音声 ID。空の場合はエージェントのデフォルト値を使用します。

enableIntelligentSegment

Bool

インテリジェント文セグメンテーションおよびマージを有効化

useVoiceprint

Bool

現在の発話セグメンテーションにボイスプリント認識とノイズ除去を適用するかどうか。

voiceprintId

String?

ボイスプリント ID。空でない場合、この通話でボイスプリントノイズ除去が有効になります。

agentMaxIdleTime

Int32

エージェントの最大アイドル時間(秒)。負の値の場合はサーバーデフォルト(600 秒)を使用します。

llmHistoryLimit

Int32

LLM/マルチモーダル LLM 会話で保持される最大履歴ターン数。負の値の場合はサーバーデフォルト(10)を使用します。

enablePushToTalk

Bool

プッシュトゥトークモードを有効化

agentGracefulShutdown

Bool

グレースフルシャットダウンを有効化:現在の文を話し終えてから停止します。

agentAvatarId

String?

デジタルヒューマンモデル ID。空の場合はエージェントのデフォルト値を使用します。

asrLanguageId

String?

ASR 言語 ID。空の場合はエージェントのデフォルト値を使用します。選択肢:

  • Mandarin Chinese

  • en: 英語

  • zh_en: 中国語・英語混在

  • es: スペイン語

  • jp: 日本語

wakeUpQuery

String?

通話開始前のユーザーのコマンド。通話開始直後のエージェントの即時応答に使用されます。

llmSystemPrompt

String?

LLM システムプロンプト(例:「あなたは親切で役立つアシスタントです…」)。注:Alibaba Cloud Model Studio ワークフローを使用する LLM ノードではサポートされていません。

asrHotWords

[String]?

ASR ホットワードリスト。上限:500 語。各語:最大 10 文字

interruptWords

[String]?

割り込みをトリガーする特定の単語またはフレーズ(例:「ちょっと待って」や「わかった」)

ARTCAICallChatSyncConfig

関連付けられたチャットエージェントセッションの構成パラメーター。

プロパティ名

説明

sessionId

String

関連付けられたチャットエージェントセッション ID

agentId

String

関連付けられたチャットエージェント ID(同じアカウントおよびリージョン内である必要があります)

receiverId

String

関連付けられたチャットエージェントセッションのユーザー ID

ARTCAICallAgentShareConfig

エージェント共有の構成情報

プロパティ名

説明

shareId

String?

エージェント共有 ID

agentType

ARTCAICallAgentType

エージェントワークロードタイプ

expireTime

Date?

有効期間 (TTL)

region

String?

エージェントが配置されているリージョン

templateConfig

String?

テンプレート構成(JSON 文字列)

userData

[String: Any]?

エージェントに渡すユーザー定義情報

ARTCAICallVideoConfig

通話のローカルビデオ構成

プロパティ名

説明

dimensions

CGSize

ストリーム取り込み解像度

frameRate

Int

ストリーム取り込みフレームレート

bitrate

Int

ストリーム取り込みビットレート

keyFrameInterval

Int

ストリームインジェストのキーフレーム間隔(ミリ秒)

useHighQualityPreview

Bool

高精細プレビューを使用します。無効にすると、SDK がストリームアップストリーミング解像度に基づいて自動調整します。

cameraCaptureFrameRate

Int

プレビュー解像度

useFrontCameraDefault

Bool

デフォルトでフロントカメラを起動

ARTCAICallAgentConfig

通話エージェントの起動および実行のための構成。

プロパティ名

説明

agentGreeting

String?

エージェントの挨拶文。空の場合はエージェントのデフォルト値を使用します。

wakeUpQuery

String?

通話開始前のユーザーのコマンド。通話開始直後のエージェントの即時応答に使用されます。

agentMaxIdleTime

Int32

エージェントの最大アイドル時間(秒)。タイムアウト後にエージェントは自動的にシャットダウンします。デフォルト:600 秒

userOnlineTimeout

Int32

ユーザーが参加しない場合にタスクを終了するまでの待機時間。デフォルト:60 秒

userOfflineTimeout

Int32

ユーザーが退出後にタスクを終了するまでの待機時間。デフォルト:5 秒

enablePushToTalk

Bool

プッシュトゥトークモードを有効化

agentGracefulShutdown

Bool

グレースフルシャットダウンを有効化

volume

Int32

エージェントの発話音量。範囲:0~400。デフォルト:100

workflowOverrideParams

[String: Any]?

ワークフロー上書きパラメーター

enableIntelligentSegment

Bool

スマート文セグメンテーションスイッチ

asrConfig

ARTCAICallAgentAsrConfig

音声認識構成

ttsConfig

ARTCAICallAgentTtsConfig

音声合成構成

llmConfig

ARTCAICallAgentLlmConfig

大規模言語モデル (LLM) 構成

avatarConfig

ARTCAICallAgentAvatarConfig

デジタルヒューマン構成

interruptConfig

ARTCAICallAgentInterruptConfig

割り込み構成

voiceprintConfig

ARTCAICallAgentVoiceprintConfig

ボイスプリントノイズ除去構成

turnDetectionConfig

ARTCAICallAgentTurnDetectionConfig

ターン検出構成

experimentalConfig

ARTCAICallExperimentalConfig

カスタマイズされた、本番環境以外向けの構成

vcrConfig

ARTCAICallAgentVcrConfig

VCR 構成

preConnectAudioUrl

String?

接続後、挨拶前に再生する効果音。URL 入力をサポートします。効果音の再生後に挨拶が再生されます。

ambientConfig

ARTCAICallAgentAmbientConfig

環境構成

backChannelingConfig

ARTCAICallAgentBackChanneling

バックチャネリング用構成モジュール。構成されている場合、システムは特定のトリガーポイントでランダムに短い応答を再生します。

autoSpeechForLlmPendingConfig

ARTCAICallAgentAutoSpeechLlmPending

LLM 応答が遅延した場合の自動発話構成。

autoSpeechForUserIdleConfig

ARTCAICallAgentAutoSpeechUserIdle

ユーザーが無言状態の場合のエージェント質問構成。

ARTCAICallAgentAmbientConfig

通話環境パラメーター

プロパティ名

説明

volume

Int32

バックグラウンドサウンドの音量。デフォルト:100

resourceId

String?

コンソールに登録されたバックグラウンドサウンドのリソース ID。空文字列の場合は無効になります。

ARTCAICallAgentAsrConfig

音声認識構成

プロパティ名

説明

asrLanguageId

String?

ASR 言語 ID。空の場合はエージェントのデフォルト値を使用します。

asrMaxSilence

Int32

音声セグメンテーションしきい値。この継続時間を超える無音は文の区切りとみなされます。デフォルト:400 ms。範囲:200~1200 ms。

asrHotWords

[String]?

ASR ホットワードリスト。上限:500 語。各語:最大 10 文字。

vadLevel

Int32

VAD 感度設定。デフォルトは 11 で、有効値は [0, 11] です。

  • 0 は VAD を無効にします。

  • 1~10:数値が大きいほど割り込みが難しくなります。

  • 11 は以前の値とは大きく異なり、前処理による歪みが少なく、ノイズ耐性が向上します。

customParams

String?

カスタム ASR のランタイムパラメーター。URL パラメーター形式を使用します(例: "mode=fast&sample=16000&format=wav")

vadDuration

Int32

音声活動検出の最小持続時間しきい値。割り込み感度の調整に使用されます。デフォルト:0(無効)。有効範囲:200~2000 ms。一般的な範囲:[200, 500](1~4 語に対応)。負の値はサーバーに送信されません(サーバーデフォルトは無効)。

asrMaxSilence

Int32

音声セグメンテーションしきい値。この継続時間を超える無音は文の区切りとみなされます。範囲:200~1200 ms。デフォルト:-1。負の値の場合はエージェントのデフォルト構成(コンソール値)を使用します。

ARTCAICallAgentTtsConfig

音声合成構成

プロパティ名

説明

agentVoiceId

String?

エージェント音声 ID。空の場合はエージェントのデフォルト値を使用します。

pronunciationRules

[[String: Any]]?

発音ルールの配列。最大 20 件のルールがサポートされます。nil または空の場合はルールを使用しません。例:

 [
  {
      "Word": "overlap",                       // 対象語
      "Pronunciation": "chongdie",              // 置き換え発音
      "Type": "replacement"                // 同音異義語ルール
  },
  {
      "Word": "action",
      "Pronunciation": "hangdong",
      "Type": "replacement"
  }
]

speechRate

Double

TTS 再生速度。すべての TTS タイプをサポートします。範囲:[0.5, 2.0]。デフォルト:1.0。負の値はサーバーに送信されません(コンソール構成を使用)。

languageId

String?

TTS 再生言語コード。TTS タイプが MiniMax の場合に有効です。

emotion

String?

TTS 再生感情タイプ。TTS タイプが MiniMax の場合に有効です。

modelId

String?

TTS モデル ID。現在は MiniMax のみをサポートします。選択肢:speech-01-turbo、speech-02-turbo。

speechRate

Double

TTS 再生速度。すべての TTS タイプをサポートします。範囲:[0.5, 2.0]。デフォルト:-1。負の値の場合はエージェントのデフォルト構成(コンソール値)を使用します。

ARTCAICallAgentLlmConfig

大規模言語モデル構成

プロパティ名

説明

llmHistoryLimit

Int32

LLM/マルチモーダル LLM 会話で保持される最大履歴ターン数。デフォルト:-1。負の値の場合はエージェントのデフォルト構成(コンソール値)を使用します。

llmSystemPrompt

String?

LLM システムプロンプト。

bailianAppParams

[String: Any]?

Model Studio アプリケーションセンターのパラメーター。

llmCompleteReply

boolean

LLM の完全な結果を送信します。

説明

有効にすると、生成後に完全な LLM 結果が onLLMReplyCompleted イベントコールバック経由で返されます。

openAIExtraQuery

String?

OpenAI プロトコル LLM の追加クエリパラメーター。

説明

パラメーターは key=value 形式で記述し、複数のパラメーターは '&' で結合する必要があります。すべての値は文字列である必要があります。

outputMinLength

Int32

最小テキスト出力長(文字)。この長さ未満のテキストは連結のためにキャッシュされます。範囲:[0, 100]。0 以下は制限なしを意味します。デフォルト:制限なし。

outputMaxDelay

Int32

最大テキスト出力遅延(ミリ秒)。この時間後にキャッシュされたテキストは強制的に出力されます。範囲:[1000, 10000]。0 以下は制限なしを意味します。デフォルト:制限なし。

historySyncWithTTS

boolean

LLM メッセージ履歴と TTS 再生内容を同期します。デフォルト:false。有効にすると、保存された LLM メッセージと TTS 再生内容が一致し、わずかな差異が許容されます。

説明

ユーザーがエージェントを割り込んだ場合、次の LLM へのメッセージの割り込みポイントに <ims_agent_interrupted> タグが挿入されます。例:

[
  {"role": "user", "content": "物語を話してください。"},
  {"role": "assistant", "content": "わかりました。三国志の物語をお話しします。<ims_agent_interrupted> 聞きたいですか?"},
  {"role": "user", "content": "別の物語を話してください。"}
]

ARTCAICallAgentAvatarConfig

デジタルヒューマン構成

プロパティ名

説明

agentAvatarId

String?

デジタルヒューマンモデル ID。空の場合はエージェントのデフォルト値を使用します。

ARTCAICallAgentInterruptConfig

割り込み構成

プロパティ名

説明

enableVoiceInterrupt

Bool

インテリジェント割り込みを有効化

interruptWords

String?

割り込みをトリガーする特定の単語またはフレーズ

noInterruptMode

String?

エージェントが発話中かつインテリジェント割り込みが無効の場合のユーザー発話に対する ASR テキスト処理ポリシーを制御します。有効値:

  • cache: ASR テキストをキャッシュし、現在のターン終了後に次のターンで処理します。

  • discard: ASR テキストを即座に破棄します。

  • その他の値(空を含む):サーバーデフォルト構成を使用します。

ARTCAICallAgentVoiceprintConfig

ボイスプリントノイズ除去構成

プロパティ名

説明

useVoiceprint

Bool

現在の文セグメンテーションでボイスプリントノイズ除去検出を使用しますか?

voiceprintId

String?

ボイスプリント ID。空でない場合、この通話でボイスプリントノイズ除去が有効になります。

ARTCAICallAgentTurnDetectionConfig

ターン検出構成

プロパティ名

説明

turnEndWords

[String]?

ターンを終了する特定の単語(例:「終わり」や「話し終わりました」)

mode

ARTCAICallTurnDetectionMode

ユーザーの発話終了を検出する方法。デフォルト:Semantic(AI を使用したセマンティック分析)。

semanticWaitDuration

Int32

セマンティックセグメンテーションのカスタム待機時間(ミリ秒)。範囲:[0, 10000]。負の値はサーバーに送信されません(サーバーデフォルトは -1 で、AI が適切な待機時間を自動決定します)。

説明

semanticWaitDuration フィールドは ARTCAICallTurnDetectionMode.Normal モードでは無効です。

eagerness

[String]?

このパラメーターは mode = "Semantic" の場合にのみ有効で、SemanticWaitDuration よりも優先度が高くなります。ユーザーの一時停止を検出した後の AI の応答速度を制御します:

  • Low: 最大 6 秒間忍耐強く待ち、誤った割り込みのリスクを軽減します。

  • Medium: バランスの取れたモードで、最大 4 秒間待ち、ほとんどのシナリオに適しています。

  • High: 最大 2 秒間で迅速に応答し、より高速なインタラクションを実現しますが、ユーザーの発話を遮るリスクが高まります。

  • その他の値(空を含む):サーバーデフォルト構成を使用します。

ARTCAICallAgentVcrResult

VCR 検出結果

プロパティ名

説明

resultData

[String]?

エージェントから返されたすべての VCR 検出結果

stillFrameMotionResult

FrameMotionResult?

VCR 静止フレーム検出結果

invalidFrameMotionResult

FrameMotionResult?

VCR 無効フレーム検出結果

peopleCountResult

PeopleCountResult?

VCR リアルタイム人数検出結果

equipmentResult

EquipmentResult?

VCR 電子機器検出結果

headMotionResult

HeadMotionResult?

VCR 頭部動作検出結果

lookAwayResult

LookAwayResult?

VCR 視線逸脱検出結果

LookAwayResult

VCR 視線逸脱検出結果

プロパティ名

説明

count

Int32

現在のフレームまでの視線逸脱の総回数

duration

Int32

現在のフレームまでの視線逸脱の総持続時間(ミリ秒)

ARTCAICallAgentVcrConfig

VCR 構成

プロパティ名

説明

data

[String]?

ユーザーが渡した JSON オブジェクトをキャッシュします。このオブジェクトは後で JSON 文字列を生成するために使用され、カスタム拡張が可能になります。

stillFrameMotion

ARTCAICallAgentVcrFrameMotionConfig?

VCR 静止フレーム検出構成

invalidFrameMotion

ARTCAICallAgentVcrFrameMotionConfig?

VCR 無効フレーム検出構成

peopleCount

ARTCAICallAgentVcrBaseConfig?

VCR リアルタイム人数検出構成

equipment

ARTCAICallAgentVcrBaseConfig?

VCR 電子機器検出構成

headMotion

ARTCAICallAgentVcrBaseConfig?

VCR 頭部動作検出構成

lookAway

ARTCAICallAgentVcrBaseConfig?

VCR 視線逸脱検出構成

ARTCAICallAgentVcrBaseConfig

ベース VCR 検出構成

プロパティ名

説明

enable

Boolean

この機能を有効化します。デフォルトで有効です。

ARTCAICallAgentVcrFrameMotionConfig

VCR ビデオフレーム検出構成

プロパティ名

説明

callbackDelay

Int32

コールバックトリガー遅延(ミリ秒)。デフォルト:3000 ms

ARTCAICallExperimentalConfig

特定のロジックポリシーを制御するための実験的パラメーター

プロパティ名

説明

rtcSdkParams

[String: Any]?

RTC SDK パラメーター

commonParams

[String: Any]?

共通パラメーター

ARTCAICallAgentAutoSpeechContent

自動発話シナリオ(応答、能動的な質問など)におけるエージェントの発話内容

プロパティ名

説明

probability

Double

トリガー確率。範囲:0.0~1.0

text

String

プロンプトテキスト(UTF-8 エンコード)。例:「まだいらっしゃいますか?」。最大長:応答の場合は 20 文字、自動返信の場合は 100 文字。

ARTCAICallAgentAutoSpeechLlmPending

LLM 応答が遅延した場合の自動発話構成

プロパティ名

説明

waitTime

Int32

待機時間しきい値(ミリ秒)。この時間を超えるとプロンプトがトリガーされます。範囲:500~10000 ms。空にすることはできません。

messages

[ARTCAICallAgentAutoSpeechContent]

待機プロンプトのコレクション。最大 10 件。各項目は 100 文字以内。合計確率は 1.0 である必要があります。

ARTCAICallAgentAutoSpeechUserIdle

ユーザーが無言状態の場合のエージェント質問構成

プロパティ名

説明

waitTime

Int32

無言持続時間しきい値(ミリ秒)。この時間を超えると質問がトリガーされます。範囲:5000~600000 ms。推奨値:10000。

maxRepeats

Int32

質問の最大回数。範囲:0~10。推奨値:5。これを超えると質問はトリガーされず、通話が終了します。

messages

[ARTCAICallAgentAutoSpeechContent]

待機プロンプトのコレクション。最大 10 件。各項目は 100 文字以内。合計確率は 1.0 である必要があります。

ARTCAICallAgentBackChanneling

バックチャネリング用構成モジュール

プロパティ名

説明

enable

boolean

Echo 機能は有効ですか?

triggerStage

String

バックチャネリングのトリガータイミング

probability

Double

トリガー確率。範囲:0.0~1.0

words

[ARTCAICallAgentAutoSpeechContent]

応答フレーズのコレクション。最大 10 件。各項目は 20 文字以内。合計確率は 1.0 である必要があります。