按OpenAI規範將自研多模態大模型接入即時工作流程-智能媒體服務-阿里雲

即時工作流程支援您按照規定的標準協議來接入多模態大模型（MLLM）。

自研MLLM標準介面（OpenAI規範）

如果您的MLLM介面符合OpenAI標準規範，您可以通過OpenAI標準的配置將您的自研LLM服務整合到工作流程中。目前支援以流式方式請求符合OpenAI規範的多模態大語言模型服務。

首先您需要在MLLM多模態大模型節點中，選擇自研接入（OpenAI規範），並配置以下參數：

名稱	類型	必填	描述	樣本值
ModelId	String	是	OpenAI標準model欄位，表示模型名稱	abc
API-KEY	String	是	OpenAI標準api_key欄位，表示API鑒權資訊	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目標模型HTTPS地址	String	是	OpenAI標準base_url欄位，表示目標服務要求地址	http://www.abc.com
單次調用圖片數上限	Integer	是	由於部分多模態大模型單次請求可接收圖片幀數量有上限，您可以設定此參數來適配不同的大模型。在請求您的MLLM服務時，會自動按照該值對視頻進行抽幀採樣。	15

在即時工作流程運行期間，將按照以下格式，組裝OpenAI標準資料，通過POST請求訪問您配置的自研模型HTTPS地址，擷取相應結果，輸入參數如下：

名稱

類型

描述

樣本值

messages

Array

歷史對話上下文，最多保留20條上下文記錄，在數組中越靠前的位置，表示越早的提問或者回答。

說明

目前只支援傳入抽幀採樣後的JPEG base64編碼資料。
歷史對話中的圖片資料不會作為上下文繼續下發。

[
  {
    "role": "user",
    "content": "今天天氣怎麼樣？"
  },
  {
    "role": "assistant",
    "content": "今天天氣晴朗。"
  },
  {
    "role": "user",
    "content": "明天天氣晴怎麼樣？"
  },
  {
    "role": "user",
    "content": [
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/jpeg;base64,xxxx"
        }
      },
      {
        "type": "text",
        "text": "這是什麼"
      }
    ]
  }
]

model

String

模型名稱資訊

abc

stream

Boolean

是否流式，目前只支援串流

True

extendData

Object

補充資訊

{'instanceId':'68e00b6640e*****3e943332fee7','channelId':'123','userData':'{"aaaa":"bbbb"}'}

instanceId

String

執行個體ID資訊

68e00b6640e*****3e943332fee7

channelId

String

房間ID資訊

123

userData

String

啟動執行個體時您傳入的UserData業務欄位資料

{"aaaa":"bbbb"}

Intelligent Media Services：MLLM標準介面

自研MLLM標準介面（OpenAI規範）

相關文檔