全部產品
Search
文件中心

Platform For AI:PAI-TensorFlow使用指南

更新時間:Apr 16, 2025

PAI-TF是人工智慧平台PAI推出的,最佳化原生Tensorflow的核心並開發周邊工具,旨在提升深度學習訓練效率的一款產品。PAI-TF擁有服務化、分布式調度、全域計算調度、GPU卡映射及模型線上預測等特點。

重要

公用雲GPU伺服器即將過保下線,您可以繼續提交CPU版本的TensorFlow任務。如需使用GPU進行模型訓練,請前往DLC提交任務,具體操作請參見建立訓練任務

背景

TensorFlow是Google的開源深度學習計算架構,支援CNN、RNN及LSTM等多種神經網路模型,對語音、映像及文本等領域的模型訓練效率較高。TensorFlow的功能豐富、強大且擁有靈活的API,受到業界的關注。

PAI-TF完全相容原生TensorFlow代碼,在許多工業化生產情境中效能更優。目前,PAI-TF已在人工智慧平台PAI、阿里雲E-MapReduce等多個產品中應用。

產品特點

PAI-TF產品的特點如下:

  • 服務化

    MaxCompute是阿里雲自主研發的飛天巨量資料平台,已經支援了數萬企業及個人開發人員。PAI-TF協助您在MaxCompute中使用TensorFlow的計算架構。PAI-TF使用的API與開源版本一致,您可以通過TensorFlow Training Script介面提交作業至MaxCompute的計算叢集中執行。

  • 分布式調度

    PAI提供海量計算資源,通過GPU Quota進行管理。PAI-TF作業基於底層的分布式調度系統動態調度至不同機器。當您提交PAI-TF作業時,無需擔心是否需要提前申請GPU物理主機,PAI-TF所需要的GPU資源隨作業的提交動態分配,隨作業的結束動態釋放。

  • 全域計算調度

    當您使用MaxCompute計算引擎時,您可以在一個專案中同時提交SQL作業和PAI-TF作業。MaxCompute全域計算調度服務能自動將PAI-TF作業調度至相應的GPU叢集,並將基於CPU叢集的資料預先處理作業和基於GPU叢集的模型訓練作業串連起來。

  • GPU卡映射

    PAI-TF支援將不同運算元(Operators)指定至特定的CPU或GPU上。基於GPU卡映射,您無需感知宿主機的GPU卡物理結構,PAI-TF會將您作業中申請的GPU卡自動對應至作業進程空間,則您感知到的GPU卡為gpu:0、gpu:1….等。

  • 模型線上預測

    PAI提供了模型線上服務EAS。您可以將PAI-TF中訓練產生的模型一鍵部署至EAS。EAS支援模型的動態擴容、變換、A/B測試、高吞吐及低延時等特性。

支援的Python三方庫

PAI-TF已安裝Numpy及Six等常見的Python三方庫,您可以在TensorFlow作業中直接匯入相關的庫。