PAI-TF是人工智慧平台PAI推出的,最佳化原生Tensorflow的核心並開發周邊工具,旨在提升深度學習訓練效率的一款產品。PAI-TF擁有服務化、分布式調度、全域計算調度、GPU卡映射及模型線上預測等特點。
公用雲GPU伺服器即將過保下線,您可以繼續提交CPU版本的TensorFlow任務。如需使用GPU進行模型訓練,請前往DLC提交任務,具體操作請參見建立訓練任務。
背景
TensorFlow是Google的開源深度學習計算架構,支援CNN、RNN及LSTM等多種神經網路模型,對語音、映像及文本等領域的模型訓練效率較高。TensorFlow的功能豐富、強大且擁有靈活的API,受到業界的關注。
PAI-TF完全相容原生TensorFlow代碼,在許多工業化生產情境中效能更優。目前,PAI-TF已在人工智慧平台PAI、阿里雲E-MapReduce等多個產品中應用。
產品特點
PAI-TF產品的特點如下:
服務化
MaxCompute是阿里雲自主研發的飛天巨量資料平台,已經支援了數萬企業及個人開發人員。PAI-TF協助您在MaxCompute中使用TensorFlow的計算架構。PAI-TF使用的API與開源版本一致,您可以通過TensorFlow Training Script介面提交作業至MaxCompute的計算叢集中執行。
分布式調度
PAI提供海量計算資源,通過GPU Quota進行管理。PAI-TF作業基於底層的分布式調度系統動態調度至不同機器。當您提交PAI-TF作業時,無需擔心是否需要提前申請GPU物理主機,PAI-TF所需要的GPU資源隨作業的提交動態分配,隨作業的結束動態釋放。
全域計算調度
當您使用MaxCompute計算引擎時,您可以在一個專案中同時提交SQL作業和PAI-TF作業。MaxCompute全域計算調度服務能自動將PAI-TF作業調度至相應的GPU叢集,並將基於CPU叢集的資料預先處理作業和基於GPU叢集的模型訓練作業串連起來。
GPU卡映射
PAI-TF支援將不同運算元(Operators)指定至特定的CPU或GPU上。基於GPU卡映射,您無需感知宿主機的GPU卡物理結構,PAI-TF會將您作業中申請的GPU卡自動對應至作業進程空間,則您感知到的GPU卡為gpu:0、gpu:1….等。
模型線上預測
PAI提供了模型線上服務EAS。您可以將PAI-TF中訓練產生的模型一鍵部署至EAS。EAS支援模型的動態擴容、變換、A/B測試、高吞吐及低延時等特性。
支援的Python三方庫
PAI-TF已安裝Numpy及Six等常見的Python三方庫,您可以在TensorFlow作業中直接匯入相關的庫。