使用Java SDK實現即時語音辨識-Intelligent Speech Interaction-阿里雲

本文介紹如何使用阿里雲智能Voice Messaging Service提供的Java SDK，包括SDK的安裝方法及SDK程式碼範例。

前提條件

在使用SDK之前，請先閱讀介面說明，詳情請參見介面說明。
從2.1.0版本開始原有nls-sdk-long-asr更名為nls-sdk-transcriber。升級時需確認已刪除nls-sdk-long-asr，並按編譯提示添加相應回調方法。

下載安裝

從Maven伺服器下載最新版本SDK，下載Demo源碼ZIP包。

<dependency>    
      <groupId>com.alibaba.nls</groupId>  
      <artifactId>nls-sdk-transcriber</artifactId>   
      <version>2.1.6</version>
</dependency>

Demo解壓後，在pom目錄運行mvn package，會在target目錄產生可執行JAR：nls-example-transcriber-2.0.0-jar-with-dependencies.jar，將JAR包拷貝到目標伺服器，用於快速驗證及壓測服務。

服務驗證：

運行如下代碼，並按提示提供相應參數。

運行後在命令執行目錄產生logs/nls.log。

java -cp nls-example-transcriber-2.0.0-jar-with-dependencies.jar com.alibaba.nls.client.SpeechTranscriberDemo

服務壓測：

運行如下代碼，並按提示提供相應參數。

其中阿里雲服務URL參數為： wss://nls-gateway-ap-southeast-1.aliyuncs.com/ws/v1 ，語音檔案為16k採樣率PCM格式檔案，並發數根據您的購買情況進行選擇。

java -jar nls-example-transcriber-2.0.0-jar-with-dependencies.jar

說明

自行壓測超過2並發將產生費用。

關鍵介面

NlsClient：語音處理用戶端，利用該用戶端可以進行一句話識別、即時語音辨識和語音合成的語音處理任務。該用戶端為安全執行緒，建議全域僅建立一個執行個體。
SpeechTranscriber：即時語音辨識類，通過該介面佈建要求參數，發送請求及聲音資料。非安全執行緒。
SpeechTranscriberListener：即時語音辨識結果監聽類，監聽識別結果。非安全執行緒。

更多介紹，請參見Java API介面說明。

重要

SDK調用注意事項：

NlsClient使用了Netty架構，NlsClient對象的建立會消耗一定時間和資源，一經建立可以重複使用。建議調用程式將NlsClient的建立和關閉與程式本身的生命週期相結合。
SpeechTranscriber對象不可重複使用，一個識別任務對應一個SpeechTranscriber對象。例如，N個音頻檔案要進行N次識別任務，建立N個SpeechTranscriber對象。
SpeechTranscriberListener對象和SpeechTranscriber對象是一一對應的，不能在不同SpeechTranscriber對象使用同一個SpeechTranscriberListener對象，否則不能將各識別任務區分開。
Java SDK依賴Netty網路程式庫，如果您的應用依賴Netty，其版本需更新至4.1.17.Final及以上。

範例程式碼

說明

下載nls-sample-16k.wav。

樣本中使用的音頻檔案為16000Hz採樣率，請在管控台中將appkey對應專案的模型設定為通用模型，以擷取正確的識別結果；如果使用其他音頻，請設定為支援該音頻情境的模型，關於模型設定，請參見管理專案。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriber;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberListener;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberResponse;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
 * 此樣本示範了：
 * ASR即時識別API調用。
 * 動態擷取token。
 * 通過本地類比即時資料流發送。
 * 識別耗時計算。
 */
public class SpeechTranscriberDemo {
    private String appKey;
    private NlsClient client;
    private static final Logger logger = LoggerFactory.getLogger(SpeechTranscriberDemo.class);

    public SpeechTranscriberDemo(String appKey, String id, String secret, String url) {
        this.appKey = appKey;
        //應用全域建立一個NlsClient執行個體，預設服務地址為阿里雲線上服務地址。
        //擷取token，實際使用時注意在accessToken.getExpireTime()到期前再次擷取。
        AccessToken accessToken = new AccessToken(id, secret);
        try {
            accessToken.apply();
            System.out.println("get token: " + ", expire time: " + accessToken.getExpireTime());
            if(url.isEmpty()) {
                client = new NlsClient(accessToken.getToken());
            }else {
                client = new NlsClient(url, accessToken.getToken());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static SpeechTranscriberListener getTranscriberListener() {
        SpeechTranscriberListener listener = new SpeechTranscriberListener() {
            //識別出中間結果。僅當setEnableIntermediateResult為true時，才會返回該訊息。
            @Override
            public void onTranscriptionResultChange(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() +
                    ", name: " + response.getName() +
                    //狀態代碼“20000000”表示正常識別。
                    ", status: " + response.getStatus() +
                    //句子編號，從1開始遞增。
                    ", index: " + response.getTransSentenceIndex() +
                    //當前的識別結果。
                    ", result: " + response.getTransSentenceText() +
                    //當前已處理的音頻時間長度，單位為毫秒。
                    ", time: " + response.getTransSentenceTime());
            }

            @Override
            public void onTranscriberStart(SpeechTranscriberResponse response) {
                //task_id是調用方和服務端通訊的唯一標識，遇到問題時，需要提供此task_id。
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
            }

            @Override
            public void onSentenceBegin(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());

            }

            //識別出一句話。服務端會智能斷句，當識別到一句話結束時會返回此訊息。
            @Override
            public void onSentenceEnd(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() +
                    ", name: " + response.getName() +
                    //狀態代碼“20000000”表示正常識別。
                    ", status: " + response.getStatus() +
                    //句子編號，從1開始遞增。
                    ", index: " + response.getTransSentenceIndex() +
                    //當前的識別結果。
                    ", result: " + response.getTransSentenceText() +
                    //信賴度
                    ", confidence: " + response.getConfidence() +
                    //開始時間
                    ", begin_time: " + response.getSentenceBeginTime() +
                    //當前已處理的音頻時間長度，單位為毫秒。
                    ", time: " + response.getTransSentenceTime());
            }

            //識別完畢
            @Override
            public void onTranscriptionComplete(SpeechTranscriberResponse response) {
                System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
            }

            @Override
            public void onFail(SpeechTranscriberResponse response) {
                //task_id是調用方和服務端通訊的唯一標識，遇到問題時，需要提供此task_id。
                System.out.println("task_id: " + response.getTaskId() +  ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());
            }
        };

        return listener;
    }

    //根據位元據大小計算對應的同等語音長度。
    //sampleRate：支援8000或16000。
    public static int getSleepDelta(int dataSize, int sampleRate) {
        // 僅支援16位採樣。
        int sampleBytes = 16;
        // 僅支援單通道。
        int soundChannel = 1;
        return (dataSize * 10 * 8000) / (160 * sampleRate);
    }

    public void process(String filepath) {
        SpeechTranscriber transcriber = null;
        try {
            //建立執行個體、建立串連。
            transcriber = new SpeechTranscriber(client, getTranscriberListener());
            transcriber.setAppKey(appKey);
            //輸入音頻編碼方式。
            transcriber.setFormat(InputFormatEnum.PCM);
            //輸入音頻採樣率。
            transcriber.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
            //是否返回中間識別結果。
            transcriber.setEnableIntermediateResult(false);
            //是否產生並返回標點符號。
            transcriber.setEnablePunctuation(true);
            //是否將返回結果規整化，比如將一百返回為100。
            transcriber.setEnableITN(false);

            //設定vad斷句參數。預設值：800ms，有效值：200ms～2000ms。
            //transcriber.addCustomedParam("max_sentence_silence", 600);
            //設定是否語義斷句。
            //transcriber.addCustomedParam("enable_semantic_sentence_detection",false);
            //設定是否開啟順滑。
            //transcriber.addCustomedParam("disfluency",true);
            //設定是否開啟詞模式。
            //transcriber.addCustomedParam("enable_words",true);
           //設定vad噪音閾值參數，參數取值為-1～+1，如-0.9、-0.8、0.2、0.9。
            //取值越趨於-1，判定為語音的機率越大，亦即有可能更多雜訊被當成語音被誤識別。
            //取值越趨於+1，判定為噪音的越多，亦即有可能更多語音段被當成噪音被拒絕識別。
            //該參數屬進階參數，調整需謹慎和重點測試。
            //transcriber.addCustomedParam("speech_noise_threshold",0.3);
            //設定訓練後的定製語言模型id。
            //transcriber.addCustomedParam("customization_id","你的定製語言模型id");
            //設定訓練後的定製熱詞id。
            //transcriber.addCustomedParam("vocabulary_id","你的定製熱詞id");
            //設定是否忽略單句逾時。
            transcriber.addCustomedParam("enable_ignore_sentence_timeout",false);
            //vad斷句開啟後處理。
            //transcriber.addCustomedParam("enable_vad_unify_post",false);

            //此方法將以上參數設定序列化為JSON發送給服務端，並等待服務端確認。
            transcriber.start();

            File file = new File(filepath);
            FileInputStream fis = new FileInputStream(file);
            byte[] b = new byte[3200];
            int len;
            while ((len = fis.read(b)) > 0) {
                logger.info("send data pack length: " + len);
                transcriber.send(b, len);
                //本案例用讀取本地檔案的形式類比即時擷取語音流並發送的，因為讀取速度較快，這裡需要設定sleep。
                //如果即時擷取語音則無需設定sleep, 如果是8k採樣率語音第二個參數設定為8000。
                int deltaSleep = getSleepDelta(len, 16000);
                Thread.sleep(deltaSleep);
            }

            //通知服務端語音資料發送完畢，等待服務端處理完成。
            long now = System.currentTimeMillis();
            logger.info("ASR wait for complete");
            transcriber.stop();
            logger.info("ASR latency : " + (System.currentTimeMillis() - now) + " ms");
        } catch (Exception e) {
            System.err.println(e.getMessage());
        } finally {
            if (null != transcriber) {
                transcriber.close();
            }
        }
    }

    public void shutdown() {
        client.shutdown();
    }

    public static void main(String[] args) throws Exception {
        String appKey = "填寫appkey";
        String id = "填寫AccessKey Id";
        String secret = "填寫AccessKey Secret";
        String url = ""; // 預設值：wss://nls-gateway-ap-southeast-1.aliyuncs.com/ws/v1。

        if (args.length == 3) {
            appKey   = args[0];
            id       = args[1];
            secret   = args[2];
        } else if (args.length == 4) {
            appKey   = args[0];
            id       = args[1];
            secret   = args[2];
            url      = args[3];
        } else {
            System.err.println("run error, need params(url is optional): " + "<app-key> <AccessKeyId> <AccessKeySecret> [url]");
            System.exit(-1);
        }
        //本案例使用本地檔案類比發送即時資料流資料。您在實際使用時，可以即時採集或接收語音流並發送到ASR服務端。
        String filepath = "nls-sample-16k.wav";
        SpeechTranscriberDemo demo = new SpeechTranscriberDemo(appKey, id, secret, url);
        demo.process(filepath);
        demo.shutdown();
    }
}
=