GetDocParsingResult.Content結構
{
"doc_info": { # 檔案基礎資訊
"languages": [ # 語言
"zh",
"en"
],
"doc_type": "pdf", # 檔案類型,包括'pdf','csv','xlsx','doc','docx','txt'
"pdf_toc": [{ # 檔案層級和頁碼
"title": "xxx", #封面
"level": 0, #層級
"page": 0 #頁碼
}],
"pages": 366, # 頁碼數量
"page_list": [{ # 頁碼高度等資訊
"imageWidth": 596.0, #頁面寬度
"imageHeight": 842.0, #頁面高度
"pageIdAllDocs": 0, #所有檔案頁面pageId
"fileIndex": 0, #檔案的index
"pageIdCurDoc": 0, #當前文檔頁面pageId
"angle": 0 #頁面角度
}],
"doc_data": #文檔內容
[{ "uniqueId":"about_us_para", #內容塊id
"page_num":"01", #頁碼
"index": "xxx", #index
"name": "xxx", #內容塊名稱
"type": "xxxx", # 內容塊類型,包括 ['Title', 'Text', 'Caption', 'Section-header', 'Footnote', 'Page-header', 'Formula','Page-footer','Table', 'Figure', 'Picture']
"subType":"xxx", # 內容塊子類型
"text": "xxx", # 內容塊常值內容
"before_text": xxx, # 內容塊前文本
"after_text": xxx, # 內容塊常值內容
"extInfo":[ # 內容塊座標等資訊
{"uniqueId": "b0x1x0", # 內容塊子塊id
"pos": [{"x": 229.0, "y": 208.0}, {"x": 421.0, "y": 208.0}, {"x": 421.0, "y": 242.0}, {"x": 229.0, "y": 242.0}], # 內容塊子塊座標, 四個座標點,x為x軸/y為y軸
"text": "Kurt Götze", # 內容塊子塊內容
"type": "Text", # 內容塊子塊內容
"subType": "Text", # 內容塊子塊子類型
"pageNum": [0], # 內容塊子塊頁碼
"index": 0 #index
}]
}]
}