全部產品
Search
文件中心

Platform For AI:LLM推理引擎(BladeLLM)簡介

更新時間:Jan 16, 2025

BladeLLM 是一款專為大語言模型(LLM)最佳化的推理引擎,旨在提供高效能的模型部署服務。面對LLM領域不斷湧現的新機遇與挑戰,BladeLLM 通過其先進的技術架構、友好的使用者體驗和卓越的效能表現,成為企業使用者部署和推理LLM模型的理想選擇。

技術架構

BladeLLM的技術架構如圖所示:

部署平台層

BladeLLM適配各類GPU架構,包括英偉達GPU、AMD GPU和更多GPU類型。此外,BladeLLM與EAS做了深度整合,能夠充分利用EAS的資源的調度和管理能力,為使用者帶來更高效可靠的一站式模型部署體驗。

BladeLLM層

  • 模型計算

    • BladeLLM的基礎是高效能運算元和AI編譯。BladeLLM設計了高效靈活的LLM運算元庫BlaDNN,在功能覆蓋度和效能方面相對於主流開源運算元庫都有顯著優勢。BladeLLM還開源了基於AI編譯技術自動運算元產生的運算元庫FlashNN,能夠靈活擴充多種硬體平台,效能與專家手工調優的運算元實現相當。

    • 量化壓縮是LLM推理情境最重要的模型最佳化手段之一。BladeLLM支援GPTQ / AWQ / SmoothQuant / SmoothQuant+ 等前沿演算法,能夠顯著提升輸送量和降低延遲。

    • BladeLLM支援模型在多卡上的分布式推理,提供了張量並行和流水線並行策略,支援任意並行度,解決LLM的顯存瓶頸問題。

  • 產生引擎

    • 除了模型計算層面的最佳化,為瞭解決實際情境下高並發的服務效能,BladeLLM設計了針對LLM情境的全非同步運行時,使用者請求會先非同步提交至batch調度模組中,然後非同步提交至產生引擎,最後實現了非同步解碼。

    • BladeLLM實現了Continuous Batching批處理方式,提升了整體輸送量和首包響應速度。

    • Prompt緩衝能夠使BladeLLM在處理重複或相似查詢時從緩衝中擷取先前計算的結果,加速回應時間。

    • 在解碼階段,BladeLLM通過推測解碼(Speculative Decoding)和前向解碼(Lookahead Decoding)等高效解碼模式,提前預測多個可能的後續token,從而在精度無損的情況下,加速token的產生速度。

  • 服務架構

    • 隨著模型規模的飛速增長,單個執行個體的資源可能無法滿足需求,需要將模型部署在多個執行個體中。BladeLLM實現了高效的分布式調度策略,結合EAS的LLM智能路由,能夠根據全域的執行個體負載情況,動態分發請求,使得負載分布更加均勻,最大化提升了叢集的利用率。

應用情境層

BladeLLM支援對話、檢索增強產生(RAG)、多模態、JSON mode多個情境,為使用者帶來高效的模型部署解決方案。

使用者體驗

BladeLLM在設計上非常注重方便使用的體驗,讓使用者能夠輕鬆部署和使用LLM模型:

  • 簡單便捷的啟動方式:BladeLLM在EAS平台上提供了情境化部署方式,預置了鏡像、啟動命令和常用參數,使用者只需選擇開源模型或者自訂模型,以及合適的資源規格,即可一鍵部署模型服務。

  • 靈活易用的調用方式:BladeLLM支援HTTP SSE的流式和非流式響應介面,相容OpenAI介面協議,便於使用者快速整合到業務系統。

  • 強大豐富的模型相容:BladeLLM模型格式與HuggingFace和ModelScope等社區標準保持相容,使用者可以直接使用現有的模型權重,無需額外轉換。

  • 開箱即用的最佳化選項:BladeLLM實現了量化壓縮、投機採樣和Prompt緩衝等最佳化功能,使用者只需通過簡單的參數設定即可使用。

  • 穩定全面的生產支援:BladeLLM提供了穩定的生產鏡像,並且在EAS上提供了即時監控和效能壓測工具,全面支援客戶業務的穩步運行。

效能表現

BladeLLM(v0.8.0)和某主流開源架構的效能對比如圖所示:

  • TTFT-QPS曲線:在典型負載下,BladeLLM 首包響應 (TTFT)加速約2倍到3倍,在典型首包響應延遲要求情況下,吞吐(QPS)提升約2倍。

    image

  • TBT-QPS曲線:在典型負載下,BladeLLM Token產生(TBT)加速約2倍~3.3倍,在典型產生響應延遲要求情況下,吞吐(QPS)提升約1.6X。

    image