使用audio/concat參數與樣本實現音頻拼接-Object Storage Service-阿里雲

您可以通過音頻拼接功能，將多個音頻拼接為一個音頻並轉換為需要的格式。本文介紹音頻拼接功能參數及樣本。

使用情境

音樂創作與製作：音樂人和製作人在創作歌曲時，常將獨立錄製的樂器或人聲拼接成完整的曲目。
有聲讀物和語音內容創作：有聲書製作時，常將朗讀音頻按章節順序拼接，確保故事連貫。
影視後期製作：在影視製作中，音頻編輯師需將對話、旁白、環境音效和配樂拼接，以匹配畫面。
社交媒體內容創作：使用者在短視頻平台上傳內容時，常將聲音效果、旁白和背景音樂拼接，以增強表現力。

注意事項

音頻拼接僅支援非同步處理（x-oss-async-process處理方式）。
使用音頻拼接前，需要先綁定IMM Project。關於控制台和API如何綁定，請參見快速入門和AttachOSSBucket - 綁定Object Storage Service桶。
不支援匿名訪問。
必須擁有IMM處理所需的相關許可權。更多資訊，請參見許可權。
當使用預設採樣率或聲道數進行拼接時，拼接可能由於目標音頻容器的相容性而失敗。
進行音頻拼接時，最大支援的音頻數量為 11 個。

參數說明

操作名稱：audio/concat

具體參數如下表所示。

拼接參數

audio/concat的拼接順序按照pre與sur在請求串中的先後順序進行拼接，具體如下：

/pre：前置拼接的音頻檔案。
/sur：後置拼接的音頻檔案。

參數	類型	是否必須	描述
ss	int	否	首碼或尾碼音訊拼接起始時間，單位為毫秒。取值： 0（預設值）：從起始位置開始。大於0：從第ss毫秒開始。
t	int	否	首碼或尾碼音訊拼接持續時間長度，單位為毫秒。取值： 0（預設值）：持續到結束位置。大於0：持續t毫秒。
o	string	是	當前Bucket下的OSS Object，需要以Base64 URL安全方式編碼。

轉碼參數

參數	類型	是否必須	描述
ss	int	否	被拼接音訊轉碼起始時間，單位為毫秒。取值： 0（預設值）：從起始位置開始。大於0：從第ss毫秒開始。
t	int	否	被拼接音訊轉碼持續時間長度，單位為毫秒。取值： 0（預設值）：持續到結束位置。大於0：持續t毫秒。
f	string	是	音頻容器： mp3 aac flac oga ac3 opus amr
ar	int	否	音頻採樣率。預設與align指定的源音頻一致，取值： 8000 11025 12000 16000 22050 24000 32000 44100 48000 64000 88200 96000 說明不同格式支援的採樣率有所不同，mp3僅支援48kHz及以下；opus支援8kHz、12kHz、16kHz、24kHz與48kHz；ac3支援32kHz、44.1kHz與48kHz；amr僅支援8kHz與16kHz。
ac	int	否	音頻聲道數。預設與align指定的源音頻一致，取值範圍：1~8。說明不同格式支援的聲道數有所不同，mp3僅支援單聲道、雙聲道；ac3最大支援6聲道（“5.1”）；amr僅支援單聲道。
aq	int	否	音頻壓縮品質。取值範圍：0~100。說明該參數與ab互斥，若都不設定則按照編碼器預設碼率進行編碼。
ab	int	否	音頻位元速率（碼率）。單位為位元/秒（bps）。取值範圍：1000~10000000。
abopt	string	否	音頻碼率選項。取值： 0（預設值）：始終使用目標音頻碼率。 1：拼接列表中存在源音頻碼率小於ab參數的值時使用拼接列表中最小的源音頻碼率。 2：拼接列表中存在源音頻碼率小於ab參數的值時返回失敗。說明該參數需要與ab參數的值一同設定。
align	int	否	主音頻檔案（提供預設轉碼參數）在拼接列表中的序號，預設為0（對齊拼接列表中第一個音頻）。
adepth	int	否	音頻採樣位深，取值為16或24。說明該參數僅在f為flac時有效。

說明

音頻拼接時也會用到sys/saveas和notify參數。更多資訊，請參見另存新檔和訊息通知。

使用REST API

音頻拼接為AAC格式

音頻名稱：pre1.mp3，pre2.wav，example.oga，sur1.aac，sur2.wma
拼接時間長度與順序：
音頻名稱
順序
時間長度
pre1.mp3
1
整段音頻
pre2.wav
2
前2秒
example.oga
3
整段音頻
sur1.aac
4
第4秒到第十秒
sur2.wma
5
第10秒到結尾
轉碼完成訊息通知：發送MNS訊息
拼接後音頻資訊
- 音頻格式：aac
- 音頻配置：44.1kHz採樣率，單聲道
- 音頻碼率：96 Kbps
- 檔案儲存體路徑
  - aac檔案：oss://outbucket/outobj.aac

處理樣本

// 對檔案example.oga進行音頻拼接。
POST /example.oga?x-oss-async-process HTTP/1.1
Host: video-demo.oss-cn-hangzhou.aliyuncs.com
Date: Fri, 28 Oct 2022 06:40:10 GMT
Authorization: OSS4-HMAC-SHA256 Credential=LTAI********************/20250417/cn-hangzhou/oss/aliyun_v4_request,Signature=a7c3554c729d71929e0b84489addee6b2e8d5cb48595adfc51868c299c0c218e

x-oss-async-process=audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_cHJlMS5tcDMK/pre,o_cHJlMi53YXYK,t_2000/sur,o_c3VyMS5hYWMK,ss_4000,t_10000/sur,o_c3VyMi53bWEK,ss_10000|sys/saveas,b_b3V0YnVja2V0,o_b3V0b2JqLnthdXRvZXh0fQo/notify,topic_QXVkaW9Db252ZXJ0

使用SDK

僅支援使用Java、Python、Go SDK通過非同步處理的方式完成音頻拼接。

前提說明

請確保已設定環境變數OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
指定Bucket名稱，例如examplebucket。
指定拼接後的音頻檔案名稱，例如dest.aac。
需要拼接的音頻檔案名稱，例如src1.mp3和src2.mp3。

僅支援使用Java、Python、Go SDK通過非同步處理的方式完成音頻拼接。

Java

要求使用3.17.4及以上版本的Java SDK。

import com.aliyun.oss.ClientBuilderConfiguration;
import com.aliyun.oss.OSS;
import com.aliyun.oss.OSSClientBuilder;
import com.aliyun.oss.common.auth.CredentialsProviderFactory;
import com.aliyun.oss.common.auth.EnvironmentVariableCredentialsProvider;
import com.aliyun.oss.common.comm.SignVersion;
import com.aliyun.oss.model.AsyncProcessObjectRequest;
import com.aliyun.oss.model.AsyncProcessObjectResult;
import com.aliyuncs.exceptions.ClientException;

import java.nio.charset.StandardCharsets;
import java.util.Base64;

public class Demo {

    public static void main(String[] args) throws ClientException {
        // yourEndpoint填寫Bucket所在地區對應的Endpoint。
        String endpoint = "https://oss-cn-hangzhou.aliyuncs.com";
        // 指定阿里雲通用Region ID，例如cn-hangzhou。
        String region = "cn-hangzhou";
        // 從環境變數中擷取訪問憑證。運行本程式碼範例之前，請確保已設定環境變數OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
        EnvironmentVariableCredentialsProvider credentialsProvider = CredentialsProviderFactory.newEnvironmentVariableCredentialsProvider();
        // 指定Bucket名稱。
        String bucketName = "examplebucket";
        // 指定拼接後的音頻檔案名稱。
        String targetAudio = "dest.aac";
        // 需要拼接的音頻檔案名稱。
        String audio1 = "src1.mp3";
        String audio2 = "src2.mp3";

        // 建立OSSClient執行個體。
        // 當OSSClient執行個體不再使用時，調用shutdown方法以釋放資源。
        ClientBuilderConfiguration clientBuilderConfiguration = new ClientBuilderConfiguration();
        clientBuilderConfiguration.setSignatureVersion(SignVersion.V4);
        OSS ossClient = OSSClientBuilder.create()
                .endpoint(endpoint)
                .credentialsProvider(credentialsProvider)
                .clientConfiguration(clientBuilderConfiguration)
                .region(region)
                .build();

        try {
            // 構建音頻處理的樣式字串以及音頻拼接處理參數。
            String audio1Encoded = Base64.getUrlEncoder().encodeToString(audio1.getBytes(StandardCharsets.UTF_8)).replace("=", "");
            String audio2Encoded = Base64.getUrlEncoder().encodeToString(audio2.getBytes(StandardCharsets.UTF_8)).replace("=", "");
            String style = String.format("audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_%s/pre,o_%s,t_0", audio1Encoded, audio2Encoded);

            // 構建非同步處理指示。
            String bucketEncoded = Base64.getUrlEncoder().encodeToString(bucketName.getBytes(StandardCharsets.UTF_8)).replace("=", "");
            String targetEncoded = Base64.getUrlEncoder().encodeToString(targetAudio.getBytes(StandardCharsets.UTF_8)).replace("=", "");
            String process = String.format("%s|sys/saveas,b_%s,o_%s/notify,topic_QXVkaW9Db252ZXJ0", style, bucketEncoded, targetEncoded);

            // 建立AsyncProcessObjectRequest對象。
            AsyncProcessObjectRequest request = new AsyncProcessObjectRequest(bucketName, audio1, process);
            // 執行非同步處理任務。
            AsyncProcessObjectResult response = ossClient.asyncProcessObject(request);
            System.out.println("EventId: " + response.getEventId());
            System.out.println("RequestId: " + response.getRequestId());
            System.out.println("TaskId: " + response.getTaskId());

        } finally {
            // 關閉OSSClient。
            ossClient.shutdown();
        }
    }
}

Python

要求使用Python SDK 2.18.4及以上版本。

# -*- coding: utf-8 -*-
import base64
import oss2
from oss2.credentials import EnvironmentVariableCredentialsProvider


def main():
    # 從環境變數中擷取臨時訪問憑證。運行本程式碼範例之前，請確保已設定環境變數OSS_ACCESS_KEY_ID、OSS_ACCESS_KEY_SECRET。
    auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())

    # 填寫Bucket所在地區對應的Endpoint。以華東1（杭州）為例，Endpoint填寫為https://oss-cn-hangzhou.aliyuncs.com。
    endpoint = 'https://oss-cn-hangzhou.aliyuncs.com'

    # 指定阿里雲通用Region ID，例如cn-hangzhou。
    region = 'cn-hangzhou'

    # 指定Bucket名稱，例如examplebucket。
    bucket = oss2.Bucket(auth, endpoint, 'examplebucket', region=region)

    # 指定拼接後的音頻檔案名稱。
    target_audio = 'dest.aac'

    # 指定需要拼接的音頻檔案名稱。
    audio1 = 'src1.mp3'
    audio2 = 'src2.mp3'

    # 構建音頻處理的樣式字串以及音頻拼接處理參數。
    audio1_encoded = base64.urlsafe_b64encode(audio1.encode()).decode().rstrip('=')
    audio2_encoded = base64.urlsafe_b64encode(audio2.encode()).decode().rstrip('=')
    style = f"audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_{audio1_encoded}/pre,o_{audio2_encoded},t_0"

    # 構建非同步處理指示。
    bucket_encoded = base64.urlsafe_b64encode(bucket.encode()).decode().rstrip('=')
    target_encoded = base64.urlsafe_b64encode(target_audio.encode()).decode().rstrip('=')
    process = f"{style}|sys/saveas,b_{bucket_encoded},o_{target_encoded}/notify,topic_QXVkaW9Db252ZXJ0"

    print(process)

    # 執行非同步處理任務。
    try:
        result = bucket.async_process_object(audio1, process)
        print(f"EventId: {result.event_id}")
        print(f"RequestId: {result.request_id}")
        print(f"TaskId: {result.task_id}")
    except Exception as e:
        print(f"Error: {e}")


if __name__ == "__main__":
    main()

Go

要求使用Go SDK 3.0.2及以上版本。

package main

import (
	"encoding/base64"
	"fmt"
	"log"
	"os"

	"github.com/aliyun/aliyun-oss-go-sdk/oss"
)
func main() {
	// 從環境變數中擷取臨時訪問憑證。運行本程式碼範例之前，請確保已設定環境變數OSS_ACCESS_KEY_ID、OSS_ACCESS_KEY_SECRET、OSS_SESSION_TOKEN。
	provider, err := oss.NewEnvironmentVariableCredentialsProvider()
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}
	// 建立OSSClient執行個體。
	// yourEndpoint填寫Bucket對應的Endpoint，以華東1（杭州）為例，填寫為https://oss-cn-hangzhou.aliyuncs.com。
	// yourRegion指定阿里雲通用Region ID，例如cn-hangzhou。
	client, err := oss.New("https://oss-cn-hangzhou.aliyuncs.com", "", "", oss.SetCredentialsProvider(&provider), oss.AuthVersion(oss.AuthV4), oss.Region("cn-hangzhou"))
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}
	// 指定Bucket名稱，例如examplebucket。
	bucketName := "examplebucket"

	bucket, err := client.Bucket(bucketName)
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}

	// 需要拼接的音頻檔案名稱。
	audio1 := "src1.mp3"
	audio2 := "src2.mp3"
	// 指定拼接後的音頻檔案名稱。
	targetAudio := "dest.aac"

	// 構建音頻處理的樣式字串以及音頻拼接處理參數。
	audio1Encoded := base64.URLEncoding.EncodeToString([]byte(audio1))
	audio2Encoded := base64.URLEncoding.EncodeToString([]byte(audio2))
	style := fmt.Sprintf("audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_%s/pre,o_%s,t_0", audio1Encoded, audio2Encoded)

	// 構建非同步處理指示。
	bucketEncoded := base64.URLEncoding.EncodeToString([]byte(bucketName))
	targetEncoded := base64.URLEncoding.EncodeToString([]byte(targetAudio))
	process := fmt.Sprintf("%s|sys/saveas,b_%s,o_%s/notify,topic_QXVkaW9Db252ZXJ0", style, bucketEncoded, targetEncoded)

	// 執行非同步處理任務。
	result, err := bucket.AsyncProcessObject(audio1, process)
	if err != nil {
		log.Fatalf("Failed to async process object: %s", err)
	}

	fmt.Printf("EventId: %s\n", result.EventId)
	fmt.Printf("RequestId: %s\n", result.RequestId)
	fmt.Printf("TaskId: %s\n", result.TaskId)
}

音頻名稱	順序	時間長度
pre1.mp3	1	整段音頻
pre2.wav	2	前2秒
example.oga	3	整段音頻
sur1.aac	4	第4秒到第十秒
sur2.wma	5	第10秒到結尾