全部產品
Search
文件中心

Platform For AI:映像視頻分析(PAI-EasyVision)

更新時間:Nov 30, 2024

PAI-EasyVision(視覺智能增強演算法包)提供多種模型的訓練及預測功能,旨在協助電腦視覺應用開發人員方便快捷地構建視覺模型並應用於生產。

隨著深度學習技術的快速發展,計算視覺技術已經跨入大規模商業化應用階段。對於視覺AI應用開發人員而言,熟練地運用深度學習CV建模技術存在較高門檻,主要體現在以下幾個方面:

  • 深度學習演算法代碼開發成本高,對大量細節進行Debug的代價很高。

  • 模型更新迭代快,理解其原理和細節需要花費大量時間。

  • 演算法訓練和推理效能最佳化都需要專業的系統知識。

  • 資料標註成本太高。

  • 在PAI上直接使用開源演算法存在一定的學習和改造成本。

為此,PAI推出了一套方便且易用的CV建模架構PAI-EasyVision,旨在協助CV應用開發人員快捷地構建視覺模型並應用於生產。PAI-EasyVision核心能力體現在架構易用性、效能及模型豐富度方面:

  • 易用性方面

    針對視覺任務的多樣性,PAI-EasyVision支援面向多任務、模組化及可插拔的原子化功能介面,其功能涵蓋了資料IO、預先處理、訓練及離線預測的完整建模流程。同時,您可以在DesignerDSW等多種環境中使用PAI-EasyVision。

  • 效能方面

    演算法封裝了PAI-TF的多種最佳化引擎,包括分布式訓練、編譯最佳化及混合精度等,您通過簡單的設定檔即可在PAI中享受極致的效能體驗。同時,相容在開源TF中使用PAI-EasyVision。

  • 模型豐富度方面

    提供了大量在開來源資料集上訓練完成的模型,且整合了PAI中優秀的模型(例如OCR模型),進而降低開發和訓練成本。

架構

PAI-EasyVision在Model Zoo基礎上進行了大量的模型擴充,提供多種模型的訓練預測能力,且支援PAI-VIP、PAI命令及DSW多種靈活調用方式,以滿足各層次使用者的建模需求。PAI-EasyVision靈活高可用的分布式流水線離線預測架構,支援上億層級資料的快速離線處理。 同時,基於PAI的系統最佳化和模型最佳化功能,使得訓練模型更小、更快地在EAS上進行預測。 此外,PAI-EasyVision支援自訂訓練預測介面,以便複用已有的功能和最佳化工作。PAI-EasyVision的具體架構如下所示。架構

特性

  • 易用性

    考慮到使用者分層,有些使用者希望通過簡單的互動操作完成模型訓練,有的使用者希望定時調度模型訓練和預測任務,有的使用者希望複用PAI-EasyVision已有模組,在此基礎上進行模型結構調整,再重新訓練。因此,PAI-EasyVision支援通過PAI-VIP、PAI命令或DSW方式調用。

  • 效能最佳化

    依託PAI-TF團隊進行了分布式訓練效能最佳化,支援高效能的單機多卡、多機多卡分布式運行方式。同時支援對模型進行Inference階段最佳化,包括圖最佳化及模型壓縮等方式。

  • 對接PAI標記平台

    PAI-EasyVision對接PAI標記平台,您可以通過提供的轉換工具,方便地將PAI標記格式檔案轉換為TFRecord,從而進行相關任務訓練。此外,PAI-EasyVision提供了豐富的資料增強模組,用於在訓練時動態擴充訓練資料。

  • 高效的離線預測

    PAI-EasyVision提供多機流水線的預測系統,便於將PAI-EasyVision訓練的模型進行離線資料處理。每個處理過程支援多機多線程加速,且各個過程非同步流水線處理,極大提高了處理效率。此外,離線預測支援使用者自訂各個處理過程。

  • 對接線上服務平台EAS

    訓練過程會產出SaveModel,使用者可以自行接入原有的線上預測業務系統。 同時,EAS提供了強大的線上預測服務能力,實現了PAI-EasyVision EAS Python Processor,使用者只需要在設定檔中配置模型地址及模型類別資訊,即可進行即時資料處理。