全部產品
Search
文件中心

Realtime Compute for Apache Flink:PDF_TO_IMAGES

更新時間:Apr 08, 2026

將PDF檔案拆分為指定格式的圖片,並以表的形式返回每頁對應的圖片內容。

文法

PDF_TO_IMAGES(content [, image_format] [, dpi] [, start_page] [, pages])

入參

參數

資料類型

是否必填

說明

content

VARBINARY

PDF檔案內容。可以結合FETCH_CONTENT函數擷取遠程檔案內容。

image_format

STRING

輸出圖片格式,支援'jpg''png'。預設值為'jpg'

dpi

INT

渲染解析度,決定輸出圖片的清晰度。預設值為200

start_page

INT

起始頁碼,從0開始計數。不指定時預設從第一頁開始處理全部頁面。

pages

INT

要處理的頁數,需要與start_page組合使用,不能單獨指定。處理[start_page, start_page + pages)區間的頁面。不指定時預設處理start_page及之後的全部頁面。

出參

參數

資料類型

說明

mime_type

STRING

輸出圖片的內容類型,例如image/jpeg

page_no

INT

對應的PDF頁碼,從0開始計數。

image_content

VARBINARY

拆分出的圖片內容。

樣本

  • 測試語句

    SELECT
        p.mime_type AS mime_type,
        p.page_no AS page_no
    FROM (
        SELECT FETCH_CONTENT(pdf_url) AS pdf_content
        FROM (
            VALUES ('https://example.com/sample.pdf')
        ) T (pdf_url)
    ) AS t1,
    LATERAL TABLE(PDF_TO_IMAGES(t1.pdf_content, 'jpg', 150)) AS p(mime_type, page_no, image_content);
  • 測試結果

    mime_type(STRING)

    page_no(INT)

    image/jpeg

    0

    image/jpeg

    1

    image/jpeg

    2

    image/jpeg

    3