GetDocParsingResult.Content 構造
{
"doc_info": { // ファイルの基本情報
"languages": [ // 言語
"zh",
"en"
],
"doc_type": "pdf", // ファイルの種類。'pdf'、'csv'、'xlsx'、'doc'、'docx'、'txt' など。
"pdf_toc": [{ // ファイルのレベルとページ番号
"title": "xxx", //表紙
"level": 0, //レベル
"page": 0 //ページ番号
}],
"pages": 366, // ページ数
"page_list": [{ // ページの高さなどの情報
"imageWidth": 596.0, //ページの幅
"imageHeight": 842.0, //ページの高さ
"pageIdAllDocs": 0, //全ファイルのページ ID
"fileIndex": 0, //ファイルインデックス
"pageIdCurDoc": 0, //現在のファイルのページ ID
"angle": 0 //ページの角度
}],
"doc_data": //ファイルの内容
[{ "uniqueId":"about_us_para", //コンテンツブロック ID
"page_num":"01", //ページ番号
"index": "xxx", //インデックス
"name": "xxx", //コンテンツブロック名
"type": "xxxx", // コンテンツブロックの種類。 ['Title', 'Text', 'Caption', 'Section-header', 'Footnote', 'Page-header', 'Formula','Page-footer','Table', 'Figure', and 'Picture'] など。
"subType":"xxx", // コンテンツブロックのサブタイプ
"text": "xxx", // コンテンツブロックのテキスト
"before_text": xxx, // コンテンツブロックの前のテキスト
"after_text": xxx, // コンテンツブロックの後のテキスト
"extInfo":[ // コンテンツブロックの座標などの情報
{"uniqueId": "b0x1x0", // コンテンツサブブロックの ID
"pos": [{"x": 229.0, "y": 208.0}, {"x": 421.0, "y": 208.0}, {"x": 421.0, "y": 242.0}, {"x": 229.0, "y": 242.0}], // コンテンツサブブロックの座標、4 つの座標点、x と y はそれぞれ x 軸と y 軸を示します
"text": "Kurt Götze", //コンテンツサブブロックのテキスト
"type": "Text", // コンテンツサブブロックの種類
"subType": "Text", // コンテンツサブブロックのサブタイプ
"pageNum": [0], // コンテンツサブブロックのページ番号
"index": 0 //インデックス
}]
}]
}