すべてのプロダクト
Search
ドキュメントセンター

Intelligent Media Management:ExtractDocumentText

最終更新日:Feb 26, 2026

ドキュメントからテキストを抽出します

操作説明

  • 本インターフェイスをご利用になる前に、Intelligent Media Management プロダクトの課金方法および料金について十分にご理解ください。

  • 本インターフェイスを呼び出す前に、現在のリージョンに利用可能なプロジェクト (プロジェクト) が存在することを確認してください。詳細については、「プロジェクト管理」をご参照ください。

  • 一般的な Word、Excel、PPT、PDF、TXT 形式のドキュメントをサポートします。

  • ファイルサイズは 200 MB を超えてはなりません。抽出されたプレーンテキストのファイルサイズは 2 MB を超えてはならず(約 600,000 文字相当)、日本語・中国語を含む全文字数が該当します。

重要 ドキュメントのフォーマットが複雑である場合、またはテキスト量が多すぎる場合、タイムアウトエラーが発生する可能性があります。このようなシナリオでは、CreateOfficeConversionTask インターフェイスを使用し、出力フォーマットを txt として指定することで、同様の機能を実現することを推奨します。

今すぐお試しください

この API を OpenAPI Explorer でお試しください。手作業による署名は必要ありません。呼び出しに成功すると、入力したパラメーターに基づき、資格情報が組み込まれた SDK コードが自動的に生成されます。このコードをダウンロードしてローカルで使用できます。

テスト

RAM 認証

下表に、この API を呼び出すために必要な認証情報を示します。認証情報は、RAM (Resource Access Management) ポリシーを使用して定義できます。以下で各列名について説明します。

  • アクション:特定のリソースに対して実行可能な操作。ポリシー構文ではAction要素として指定します。

  • API:アクションを具体的に実行するための API。

  • アクセスレベル:各 API に対して事前定義されているアクセスの種類。有効な値:create、list、get、update、delete。

  • リソースタイプ:アクションが作用するリソースの種類。リソースレベルでの権限をサポートするかどうかを示すことができます。ポリシーの有効性を確保するため、アクションの対象として適切なリソースを指定してください。

    • リソースレベルの権限を持つ API の場合、必要なリソースタイプはアスタリスク (*) でマークされます。ポリシーのResource要素で対応する ARN を指定してください。

    • リソースレベルの権限を持たない API の場合、「すべてのリソース」と表示され、ポリシーのResource要素でアスタリスク (*) でマークされます。

  • 条件キー:サービスによって定義された条件のキー。このキーにより、きめ細やかなアクセス制御が可能になります。この制御は、アクション単体に適用することも、特定のリソースに対するアクションに適用することもできます。Alibaba Cloud は、サービス固有の条件キーに加えて、すべての RAM 統合サービスに適用可能な一連の共通条件キーを提供しています。

  • 依存アクション:ある特定のアクションを実行するために、前提として実行が必要となる他のアクション。依存アクションの権限も RAM ユーザーまたは RAM ロールに付与する必要があります。

アクション

アクセスレベル

リソースタイプ

条件キー

依存アクション

imm:ExtractDocumentText

none

*Project

acs:imm:{#regionId}:{#accountId}:project/{#ProjectName}

なし なし

リクエストパラメーター

パラメーター

必須 / 任意

説明

ProjectName

string

必須

プロジェクト名です。取得方法については、「プロジェクトの作成」をご参照ください。

immtest

SourceURI

string

必須

ソースデータの保存先アドレスです。

OSS アドレスの形式は oss://${Bucket}/${Object} です。ここで、${Bucket} は現在のプロジェクトと同じリージョン (Region) に存在する OSS バケットの名称、${Object} はファイル拡張子を含むファイルの完全パスです。

重要 現在、HTTP プロトコルのアドレスのみがサポートされています。

oss://test-bucket/test-object

SourceType

string

任意

ソースデータの拡張子タイプです。デフォルトでは、入力オブジェクトの拡張子に基づいてソースデータのタイプが自動的に判別されます。入力オブジェクトに拡張子がない場合は、本パラメーターを明示的に設定してください。指定可能な値は以下のとおりです:

  • Word 文書:doc、docx、wps、wpss、docm、dotm、dot、dotx、html

  • プレゼンテーション文書 (PPT):pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm、dpss

  • スプレッドシート文書 (Excel):xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets

  • PDF 文書:pdf

docx

CredentialConfig CredentialConfig

任意

特別な要件がない場合は、空欄のままにしてください。

チェーン権限付与の構成で、任意設定です。詳細については、「チェーン権限付与による他エンティティリソースへのアクセス」をご参照ください。

レスポンスフィールド

フィールド

説明

object

応答本文の構造です。

RequestId

string

リクエスト ID です。

94D6F994-E298-037E-8E8B-0090F27*****

DocumentText

string

ドキュメントのテキスト内容です。

测试内容。

成功レスポンス

JSONJSON

{
  "RequestId": "94D6F994-E298-037E-8E8B-0090F27*****",
  "DocumentText": "测试内容。"
}

エラーコード

完全なリストについては、「エラーコード」をご参照ください。

変更履歴

完全なリストについては、「変更履歴」をご参照ください。