Struktur GetDocParsingResult.Content
{
"doc_info": { # Informasi dasar file
"languages": [ # Bahasa
"zh",
"en"
],
"doc_type": "pdf", # Tipe file, termasuk 'pdf', 'csv', 'xlsx', 'doc', 'docx', dan 'txt'.
"pdf_toc": [{ # Tingkat file dan nomor halaman
"title": "xxx", #Sampul
"level": 0, #Tingkat
"page": 0 #Nomor halaman
}],
"pages": 366, # Jumlah halaman
"page_list": [{ # Tinggi halaman dan informasi lainnya
"imageWidth": 596.0, #Lebar halaman
"imageHeight": 842.0, #Tinggi halaman
"pageIdAllDocs": 0, #ID halaman dari semua file
"fileIndex": 0, Indeks file
"pageIdCurDoc": 0, #ID halaman file saat ini
"angle": 0 #Sudut halaman
}],
"doc_data": #Konten file
[{ "uniqueId":"about_us_para", #ID blok konten
"page_num":"01", #Nomor halaman
"index": "xxx", #indeks
"name": "xxx", #Nama blok konten
"type": "xxxx", # Tipe blok konten, termasuk ['Title', 'Text', 'Caption', 'Section-header', 'Footnote', 'Page-header', 'Formula','Page-footer', 'Table', 'Figure', dan 'Picture']
"subType":"xxx", # Subtipe blok konten
"text": "xxx", # Teks blok konten
"before_text": xxx, # Teks sebelum blok konten
"after_text": xxx, # Teks setelah blok konten
"extInfo":[ # Koordinat dan informasi lainnya dari blok konten
{"uniqueId": "b0x1x0", # ID sub-blok konten
"pos": [{"x": 229.0, "y": 208.0}, {"x": 421.0, "y": 208.0}, {"x": 421.0, "y": 242.0}, {"x": 229.0, "y": 242.0}], # Koordinat sub-blok konten, empat titik koordinat, x dan y menunjukkan sumbu x dan y
"text": "Kurt Götze", #Teks sub-blok konten
"type": "Text", # Tipe sub-blok konten
"subType": "Text", # Subtipe sub-blok konten
"pageNum": [0], # Nomor halaman sub-blok konten
"index": 0 #indeks
}]
}]
}