本文介紹如何使用阿里雲智能Voice Messaging Service提供的Java SDK,包括SDK的安裝方法及SDK程式碼範例。
前提條件
在使用SDK之前,請先閱讀介面說明,詳情請參見介面說明。
從2.1.0版本開始原有nls-sdk-long-asr更名為nls-sdk-transcriber。升級時需確認已刪除nls-sdk-long-asr,並按編譯提示添加相應回調方法。
下載安裝
從Maven伺服器下載最新版本SDK,下載Demo源碼ZIP包。
<dependency>
<groupId>com.alibaba.nls</groupId>
<artifactId>nls-sdk-transcriber</artifactId>
<version>2.1.6</version>
</dependency>Demo解壓後,在pom目錄運行mvn package,會在target目錄產生可執行JAR:nls-example-transcriber-2.0.0-jar-with-dependencies.jar,將JAR包拷貝到目標伺服器,用於快速驗證及壓測服務。
服務驗證:
運行如下代碼,並按提示提供相應參數。
運行後在命令執行目錄產生logs/nls.log。
java -cp nls-example-transcriber-2.0.0-jar-with-dependencies.jar com.alibaba.nls.client.SpeechTranscriberDemo服務壓測:
運行如下代碼,並按提示提供相應參數。
其中阿里雲服務URL參數為: wss://nls-gateway-ap-southeast-1.aliyuncs.com/ws/v1 ,語音檔案為16k採樣率PCM格式檔案,並發數根據您的購買情況進行選擇。
java -jar nls-example-transcriber-2.0.0-jar-with-dependencies.jar自行壓測超過2並發將產生費用。
關鍵介面
NlsClient:語音處理用戶端,利用該用戶端可以進行一句話識別、即時語音辨識和語音合成的語音處理任務。該用戶端為安全執行緒,建議全域僅建立一個執行個體。
SpeechTranscriber:即時語音辨識類,通過該介面佈建要求參數,發送請求及聲音資料。非安全執行緒。
SpeechTranscriberListener:即時語音辨識結果監聽類,監聽識別結果。非安全執行緒。
更多介紹,請參見Java API介面說明。
SDK調用注意事項:
NlsClient使用了Netty架構,NlsClient對象的建立會消耗一定時間和資源,一經建立可以重複使用。建議調用程式將NlsClient的建立和關閉與程式本身的生命週期相結合。
SpeechTranscriber對象不可重複使用,一個識別任務對應一個SpeechTranscriber對象。例如,N個音頻檔案要進行N次識別任務,建立N個SpeechTranscriber對象。
SpeechTranscriberListener對象和SpeechTranscriber對象是一一對應的,不能在不同SpeechTranscriber對象使用同一個SpeechTranscriberListener對象,否則不能將各識別任務區分開。
Java SDK依賴Netty網路程式庫,如果您的應用依賴Netty,其版本需更新至4.1.17.Final及以上。
範例程式碼
樣本中使用的音頻檔案為16000Hz採樣率,請在管控台中將appkey對應專案的模型設定為通用模型,以擷取正確的識別結果;如果使用其他音頻,請設定為支援該音頻情境的模型,關於模型設定,請參見管理專案。
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriber;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberListener;
import com.alibaba.nls.client.protocol.asr.SpeechTranscriberResponse;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
* 此樣本示範了:
* ASR即時識別API調用。
* 動態擷取token。
* 通過本地類比即時資料流發送。
* 識別耗時計算。
*/
public class SpeechTranscriberDemo {
private String appKey;
private NlsClient client;
private static final Logger logger = LoggerFactory.getLogger(SpeechTranscriberDemo.class);
public SpeechTranscriberDemo(String appKey, String id, String secret, String url) {
this.appKey = appKey;
//應用全域建立一個NlsClient執行個體,預設服務地址為阿里雲線上服務地址。
//擷取token,實際使用時注意在accessToken.getExpireTime()到期前再次擷取。
AccessToken accessToken = new AccessToken(id, secret);
try {
accessToken.apply();
System.out.println("get token: " + ", expire time: " + accessToken.getExpireTime());
if(url.isEmpty()) {
client = new NlsClient(accessToken.getToken());
}else {
client = new NlsClient(url, accessToken.getToken());
}
} catch (IOException e) {
e.printStackTrace();
}
}
private static SpeechTranscriberListener getTranscriberListener() {
SpeechTranscriberListener listener = new SpeechTranscriberListener() {
//識別出中間結果。僅當setEnableIntermediateResult為true時,才會返回該訊息。
@Override
public void onTranscriptionResultChange(SpeechTranscriberResponse response) {
System.out.println("task_id: " + response.getTaskId() +
", name: " + response.getName() +
//狀態代碼“20000000”表示正常識別。
", status: " + response.getStatus() +
//句子編號,從1開始遞增。
", index: " + response.getTransSentenceIndex() +
//當前的識別結果。
", result: " + response.getTransSentenceText() +
//當前已處理的音頻時間長度,單位為毫秒。
", time: " + response.getTransSentenceTime());
}
@Override
public void onTranscriberStart(SpeechTranscriberResponse response) {
//task_id是調用方和服務端通訊的唯一標識,遇到問題時,需要提供此task_id。
System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
}
@Override
public void onSentenceBegin(SpeechTranscriberResponse response) {
System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
}
//識別出一句話。服務端會智能斷句,當識別到一句話結束時會返回此訊息。
@Override
public void onSentenceEnd(SpeechTranscriberResponse response) {
System.out.println("task_id: " + response.getTaskId() +
", name: " + response.getName() +
//狀態代碼“20000000”表示正常識別。
", status: " + response.getStatus() +
//句子編號,從1開始遞增。
", index: " + response.getTransSentenceIndex() +
//當前的識別結果。
", result: " + response.getTransSentenceText() +
//信賴度
", confidence: " + response.getConfidence() +
//開始時間
", begin_time: " + response.getSentenceBeginTime() +
//當前已處理的音頻時間長度,單位為毫秒。
", time: " + response.getTransSentenceTime());
}
//識別完畢
@Override
public void onTranscriptionComplete(SpeechTranscriberResponse response) {
System.out.println("task_id: " + response.getTaskId() + ", name: " + response.getName() + ", status: " + response.getStatus());
}
@Override
public void onFail(SpeechTranscriberResponse response) {
//task_id是調用方和服務端通訊的唯一標識,遇到問題時,需要提供此task_id。
System.out.println("task_id: " + response.getTaskId() + ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());
}
};
return listener;
}
//根據位元據大小計算對應的同等語音長度。
//sampleRate:支援8000或16000。
public static int getSleepDelta(int dataSize, int sampleRate) {
// 僅支援16位採樣。
int sampleBytes = 16;
// 僅支援單通道。
int soundChannel = 1;
return (dataSize * 10 * 8000) / (160 * sampleRate);
}
public void process(String filepath) {
SpeechTranscriber transcriber = null;
try {
//建立執行個體、建立串連。
transcriber = new SpeechTranscriber(client, getTranscriberListener());
transcriber.setAppKey(appKey);
//輸入音頻編碼方式。
transcriber.setFormat(InputFormatEnum.PCM);
//輸入音頻採樣率。
transcriber.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
//是否返回中間識別結果。
transcriber.setEnableIntermediateResult(false);
//是否產生並返回標點符號。
transcriber.setEnablePunctuation(true);
//是否將返回結果規整化,比如將一百返回為100。
transcriber.setEnableITN(false);
//設定vad斷句參數。預設值:800ms,有效值:200ms~2000ms。
//transcriber.addCustomedParam("max_sentence_silence", 600);
//設定是否語義斷句。
//transcriber.addCustomedParam("enable_semantic_sentence_detection",false);
//設定是否開啟順滑。
//transcriber.addCustomedParam("disfluency",true);
//設定是否開啟詞模式。
//transcriber.addCustomedParam("enable_words",true);
//設定vad噪音閾值參數,參數取值為-1~+1,如-0.9、-0.8、0.2、0.9。
//取值越趨於-1,判定為語音的機率越大,亦即有可能更多雜訊被當成語音被誤識別。
//取值越趨於+1,判定為噪音的越多,亦即有可能更多語音段被當成噪音被拒絕識別。
//該參數屬進階參數,調整需謹慎和重點測試。
//transcriber.addCustomedParam("speech_noise_threshold",0.3);
//設定訓練後的定製語言模型id。
//transcriber.addCustomedParam("customization_id","你的定製語言模型id");
//設定訓練後的定製熱詞id。
//transcriber.addCustomedParam("vocabulary_id","你的定製熱詞id");
//設定是否忽略單句逾時。
transcriber.addCustomedParam("enable_ignore_sentence_timeout",false);
//vad斷句開啟後處理。
//transcriber.addCustomedParam("enable_vad_unify_post",false);
//此方法將以上參數設定序列化為JSON發送給服務端,並等待服務端確認。
transcriber.start();
File file = new File(filepath);
FileInputStream fis = new FileInputStream(file);
byte[] b = new byte[3200];
int len;
while ((len = fis.read(b)) > 0) {
logger.info("send data pack length: " + len);
transcriber.send(b, len);
//本案例用讀取本地檔案的形式類比即時擷取語音流並發送的,因為讀取速度較快,這裡需要設定sleep。
//如果即時擷取語音則無需設定sleep, 如果是8k採樣率語音第二個參數設定為8000。
int deltaSleep = getSleepDelta(len, 16000);
Thread.sleep(deltaSleep);
}
//通知服務端語音資料發送完畢,等待服務端處理完成。
long now = System.currentTimeMillis();
logger.info("ASR wait for complete");
transcriber.stop();
logger.info("ASR latency : " + (System.currentTimeMillis() - now) + " ms");
} catch (Exception e) {
System.err.println(e.getMessage());
} finally {
if (null != transcriber) {
transcriber.close();
}
}
}
public void shutdown() {
client.shutdown();
}
public static void main(String[] args) throws Exception {
String appKey = "填寫appkey";
String id = "填寫AccessKey Id";
String secret = "填寫AccessKey Secret";
String url = ""; // 預設值:wss://nls-gateway-ap-southeast-1.aliyuncs.com/ws/v1。
if (args.length == 3) {
appKey = args[0];
id = args[1];
secret = args[2];
} else if (args.length == 4) {
appKey = args[0];
id = args[1];
secret = args[2];
url = args[3];
} else {
System.err.println("run error, need params(url is optional): " + "<app-key> <AccessKeyId> <AccessKeySecret> [url]");
System.exit(-1);
}
//本案例使用本地檔案類比發送即時資料流資料。您在實際使用時,可以即時採集或接收語音流並發送到ASR服務端。
String filepath = "nls-sample-16k.wav";
SpeechTranscriberDemo demo = new SpeechTranscriberDemo(appKey, id, secret, url);
demo.process(filepath);
demo.shutdown();
}
}
=