メディアアセットのコンテンツを分析する - Intelligent Media Services

インテリジェント構造化分析機能は、コンテンツ密度が高い長い動画を分析、翻訳、主要情報の抽出を行います。この機能は、主要コンテンツの識別、マーク、再編成、繰り返し視聴に役立ちます。この機能は、メディアアセットに対してインテリジェントなコンテンツ分析を実行し、分析結果を構造化データとしてメディアアセットに保存します。分析完了後、APIオペレーションを呼び出すことで分析結果を取得できます。これにより、コンテンツの読み取り効率が向上します。

制限事項

この機能は、中国 (北京)、中国 (上海)、中国 (杭州) リージョンでのみ使用できます。

課金ルール

この機能はパブリックプレビュー段階であり、現在は無料です。

手順

新しいメディアアセットを登録 (RegisterMediaInfo) するか、既存のメディアアセット (SubmitSmarttagJob) を送信して、構造化分析ジョブをトリガーします。
分析が完了すると、結果はメディアアセットのオブジェクトストレージサービス (OSS) パスの ice が生成したフォルダーに保存されます。カスタムパスは使用できません。
結果が保存されると、システムはコールバック通知 (MediaAiAnalysisComplete) を送信します。
GetMediaInfo オペレーションを呼び出して、メディアアセットのスマートタグを取得します。

前提条件

インテリジェントメディアサービス (IMS) が有効化されていること。詳細については、「IMS の有効化」をご参照ください。
IMS SDK がインストールされていること。

タグ付けジョブの送信

RegisterMediaInfo オペレーションを呼び出して、新しいメディアアセットを登録し、タグ付けジョブをトリガーする

新しいメディアアセットを分析する必要がある場合は、新しいメディアアセットを登録するときにタグ付けジョブをトリガーできます。 SmartTagTemplateId パラメーターでスマートタグ付けテンプレートを指定できます。このようにして、IMS はテンプレートに基づいてメディアアセットを分析します。パラメーターの詳細については、「RegisterMediaInfo」をご参照ください。

説明

スマートタグ付けテンプレートは、メディアアセットを登録するときにのみ指定できます。 API オペレーションを呼び出してスマートタグ付けテンプレートをアップロードすることはできません。

リクエストパラメーター (スマートタグ付けテンプレート対応)

パラメーター

タイプ

必須

説明

例

SmartTagTemplateId

string

いいえ

スマートタグ付けテンプレート

S00000101-300080: Tingwu 文字起こし機能を提供します。
S00000103-000001: Tingwu 文字起こし機能とすべてのタグ付け機能を提供します。次のタグ付け機能がサポートされています。
- ocr: 画像光学式文字認識 (OCR)。
- asr: 自動音声認識 (ASR)。
- classification: 動画分類。
- shows: 番組認識。
- face: 顔認識。
- role: 人物認識。
- object: オブジェクト認識。
- tvstation: テレビ局ロゴ認識。
- action: アクション認識。
- emotion: 表情認識。
- landmark: ランドマーク認識。
- scene: シーン認識。
- subtitle: 字幕抽出。
S00000103-000002: すべてのタグ付け機能を提供し、Tingwu 文字起こし機能は提供しません。

S00000101-300080

SubmitSmarttagJob オペレーションを呼び出して、既存のメディアアセットに基づいてタグ付けジョブを送信する

このオペレーションを呼び出して、既存のメディアアセットを分析できます。パラメーターテンプレート、コールバック URL、カスタムデータなど、関連パラメーターを指定する必要があります。ジョブが完了すると、コールバックメッセージがサーバーに送信され、分析結果は指定された OSS パスの ice 生成フォルダーに保存されます。詳細については、「SubmitSmarttagJob」をご参照ください。

入力パラメーターの例

{
    "Params": "{\"NlpParams\":{\"SummarizationEnabled\":true,\"SourceLanguage\":\"cn\",\"AutoChaptersEnabled\":true,\"TargetLanguages\":\"en\",\"MeetingAssistanceEnabled\":true,\"DiarizationEnabled\":true,\"SummarizationTypes\":\"Paragraph,Conversational,QuestionsAnswering,MindMap\",\"TranslationEnabled\":true,\"SpeakerCount\":2}}", // NLP パラメーターを設定します。
    "NotifyUrl": "https://***.com.fcapp.run", // コールバック URL を設定します。
    "UserData": "{\"test\": \"b\"}", // カスタムデータを記録します。
    "Input": "{\"Media\": \"****0d30005971efbfc4f7f6c75a6302****\", \"Type\": \"Media\"}", // 入力メディアアセット ID を設定します。
    "TemplateId": "S00000101-300080" // スマートタグ付けテンプレート ID を設定します。
}

コールバック通知

コールバック設定

SubmitSmarttagJob オペレーションを呼び出してタグ付けジョブを送信するか、RegisterMediaInfo オペレーションを呼び出して自動タグ付けジョブをトリガーするときに、UserData リクエストパラメーターで HTTP、HTTPS、またはシンプルメッセージキュー (SMQ) コールバック URL を指定できます。タグ付けジョブが完了し、結果がメディアアセットに書き戻されると、システムはコールバック通知を送信します。

コールバック通知を受信した後、GetMediaInfo オペレーションを呼び出し、メディアアセット ID を指定して、メディアアセットに関連付けられた構造化スマートタグを照会できます。

コールバックイベントタイプ

メディアアセットの分析と結果の保存 (MediaAiAnalysisComplete)

メッセージ本文の例:

{
  "EventType": "MediaAiAnalysisComplete", // イベントタイプ。値は MediaAiAnalysisComplete です。
  "UserId": 183320223010****, // Alibaba Cloud アカウント ID。
  "EventTime": "2022-06-23T13:11:33Z", // イベントの発生時刻。
  "MessageBody": {
    "Status":"Success", // AI 分析結果がシステムに保存されているかどうかを示します。有効な値: Success と Failed。
    "JobStatus": "AnalyzeSuccess", // AI ジョブのステータス。有効な値: AnalyzeSuccess と AnalyzeFailed。
    "Type": "StandardSmartTag", // AI ジョブのタイプ。値は StandardSmartTag です。
    "MediaId":"****b391419aj294m83b459f7435****" // メディアアセットの ID。
  }
}

パラメーターの詳細については、「イベントリスト」をご参照ください。

GetMediaInfo オペレーションの呼び出し操作

このオペレーションを呼び出して、メディアアセットの構造化スマートタグを照会できます。ビジネス要件に基づいて詳細情報を返すかどうかを指定できます。オペレーションの詳細については、「GetMediaInfo」をご参照ください。

リクエストパラメーター (詳細情報を返すかどうかを指定できます)

パラメーター

タイプ

必須

説明

例

ReturnDetailedInfo

string

いいえ

特定のメディアアセットフィールドの詳細情報を返すかどうかを指定します。このパラメーターを設定しない場合、デフォルト値 AiRoughData.StandardSmartTagJob=false が使用されます。

AiRoughData.StandardSmartTagJob=false: Results の Data フィールドには詳細なタグ情報は含まれず、チャプターサマリーやキーワードなどのサマリー情報のみが含まれます。
AiRoughData.StandardSmartTagJob=true: Results の Data フィールドは詳細なタグ情報を返します。

{"AiRoughData.StandardSmartTagJob": true}

サンプルレスポンス

AiRoughData.StandardSmartTagJob=false: Results フィールドには詳細なタグ情報は含まれず、チャプターサマリーやキーワードなどのサマリー情報のみが含まれます。

{
  "RequestId": "2FDE2411-DB8D-4A9A-875B-275798F14A5E",
  "MediaInfo": {
    "MediaId": "****20b48fb04483915d4f2cd8ac****",
    "MediaBasicInfo": { /* 省略 */ },
    "FileInfoList": [ /* 省略 */ ],
    "AiRoughData": {
      // マルチモーダル検索用タグ
      /* 省略 */

      // 標準タグ
      "StandardSmartTagJob": {
        "AiJobId": "xxx",
        "Status": "Success",
        "ResultUrl": "http://xx.oss-cn-shanghai.aliyuncs.com/result2.txt",
        "Results": [
          {
            "Data": "{\"autoChapters\":[{\"start\":29830,\"headline\":\"Appearance-related stress and solutions\",\"summary\":\"The conversation mentioned the harm that appearance-related distress can cause to women, and two ways to address this issue: one is to achieve success through personal effort, and the other is to conform to mainstream beauty standards. However, both approaches require strong mental resilience. Additionally, for women who choose to conform to mainstream beauty standards, they may receive praise from those who appreciate them, but also face criticism from those who do not. Therefore, it is necessary to be mentally prepared to handle external doubts and potential hurt. \",\"end\":169720,\"id\":1}],\"meetingAssistance\":{\"keywords\":[\"distress\",\"appearance\",\"label\",\"criticism\",\"agree with the public\",\"psychology\",\"Internet celebrity\",\"female\",\"give in\",\"aesthetic\",\"gene\"]}}", // 詳細なタグ情報ではなく、チャプターサマリーやキーワードなどのサマリー情報のみが含まれます。
            "Type": "NLP"
          }
        ]
      }
    }
  }
}

AiRoughData.StandardSmartTagJob=true: Results フィールドは詳細なタグ情報を返します。

{
  "RequestId": "2FDE2411-DB8D-4A9A-875B-275798F14A5E",
  "MediaInfo": {
    "MediaId": "****20b48fb04483915d4f2cd8ac****",
     "MediaBasicInfo": { /* 省略 */ },
    "FileInfoList": [ /* 省略 */ ],
    "AiRoughData": {
       // マルチモーダル検索用タグ
      /* 省略 */

      // 標準スマートタグ
      "StandardSmartTagJob": {
        "AiJobId": "xxx",
        "Status": "Success",
        "ResultUrl": "http://xx.oss-cn-shanghai.aliyuncs.com/result2.txt",
        "Results":[
          {
            "Data":"{\"autoChapters\":[{\"start\":29830,\"headline\":\"Appearance-related stress and solutions\",\"summary\":\"The conversation mentioned the harm that appearance-related distress can cause to women, and two ways to address this issue: one is to achieve success through personal effort, and the other is to conform to mainstream beauty standards. However, both approaches require strong mental resilience. Additionally, for those who choose to conform to mainstream beauty standards, they may receive praise from those who appreciate them, but also face criticism from those who do not. Therefore, it is necessary to be mentally prepared to handle external doubts and potential hurt. \",\"end\":169720,\"id\":1}],\"meetingAssistance\":{\"classifications\":{\"lecture\":0.13275695,\"meeting\":0.148536,\"interview\":0.7187071},\"keywords\":[\"distress\",\"appearance\",\"label\",\"criticism\",\"agree with the public\",\"psychology\",\"Internet celebrity\",\"female\",\"give in\",\"aesthetic\",\"gene\"],\"keySentences\":[{\"start\":23280,\"sentenceId\":6,\"end\":29330,\"text\":\"But among the two labels she most desires, the \\\"beauty\\\" label is somewhat surprising. \",\"id\":1},{\"start\":112600,\"sentenceId\":23,\"end\":119828,\"text\":\"I think both approaches require a very strong mindset, so you can choose either one. \",\"id\":2},{\"start\":120430,\"sentenceId\":24,\"end\":124040,\"text\":\"The first approach is to think that I am awesome and free. \",\"id\":3},{\"start\":146730,\"sentenceId\":27,\"end\":152180,\"text\":\"The second option, I think, requires even stronger mental fortitude, as you have to endure both the pain and the criticism. \",\"id\":4},{\"start\":152490,\"sentenceId\":28,\"end\":165983,\"text\":\"You have to admit that you've succumbed to popular taste, and in doing so, both groups will criticize you. Those who don't agree with popular taste will accuse you of giving in, while those who do agree with it will call you fake. \",\"id\":5}],\"summarization\":{\"conversationalSummary\":[/* 省略 */],\"questionsAnsweringSummary\":[/* 省略 */],\"paragraphSummary\":\"/* 省略 */},\"transcription\":{\"paragraphs\":[/* 省略 */],\"translation\":{\"paragraphs\":[/* 省略 */]}}", // 詳細なタグ情報が返されます。
            "Type":"NLP"
          }
        ]
      }
    }
  }
}

Results の Type フィールドと Data フィールド

文字起こし (基本認識)

パラメーター	タイプ	説明
transcription	object	音声テキスト変換結果。
transcription.paragraphs	list[]	音声テキスト変換結果を含むパラグラフのリスト。
transcription.paragraphs[i].paragraphId	string	パラグラフ ID。
transcription.paragraphs[i].speakerId	string	話者 ID。
transcription.paragraphs[i].words	list[]	パラグラフに含まれる単語。
transcription.paragraphs[i].words[i].id	int	単語 ID。単語 ID に注意を払う必要はありません。
transcription.paragraphs[i].words[i].sentenceId	int	文 ID。同じ文 ID を持つ単語は、1 つの文にまとめることができます。
transcription.paragraphs[i].words[i].start	long	単語の開始時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
transcription.paragraphs[i].words[i].end	long	単語の終了時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
transcription.paragraphs[i].words[i].text	string	単語テキスト。

要約 (全文要約、話者要約、質問要約、マインドマップ)

パラメーター	タイプ	説明
summarization	object	要約結果。結果は空であるか、異なる要約タイプである可能性があります。
summarization.paragraphSummary	string	全文の要約。
summarization.conversationalSummary	list[]	会話の要約結果のリスト。
summarization.conversationalSummary[i].speakerId	string	話者 ID。
summarization.conversationalSummary[i].speakerName	string	話者の名前。
summarization.conversationalSummary[i].summary	string	話者に対応する要約。
summarization.questionsAnsweringSummary	list[]	Q&A の要約結果のリスト。
summarization.questionsAnsweringSummary[i].question	string	質問。
summarization.questionsAnsweringSummary[i].sentenceIdsOfQuestion	list[]	質問に対応する元の音声に基づいて生成された文の ID のリスト。
summarization.questionsAnsweringSummary[i].answer	string	質問への回答。
summarization.questionsAnsweringSummary[i].sentenceIdsOfAnswer	list[]	回答に対応する元の音声に基づいて生成された文の ID のリスト。
summarization.mindMapSummary	list[]	要約結果のマインドマップ。マインドマップには、各トピックの要約とトピック間の関係が含まれる場合があります。
summarization.mindMapSummary[i].title	string	トピックのタイトル。
summarization.mindMapSummary[i].topic	list[]	各トピックとそのサブトピックを含む配列。
summarization.mindMapSummary[i].topic[i].title	string	トピックのタイトル。
summarization.mindMapSummary[i].topic[i].topic	list[]	トピックのサブトピックを含む配列。配列は空の場合があります。

翻訳 (全文翻訳)

パラメーター	タイプ	説明
translation	object	翻訳結果。
translation.paragraphs	list[]	翻訳結果を含むパラグラフのリスト。 ASR 結果に対応します。
translation.paragraphs.paragraphId	string	パラグラフ ID。 ASR 結果のパラグラフ ID に対応します。
translation.paragraphs.sentences	list[]	翻訳されたテキスト文のリスト。
translation.paragraphs.sentences[i].sentenctId	long	文の ID。
translation.paragraphs.sentences[i].start	long	文の開始時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
translation.paragraphs.sentences[i].end	long	文の終了時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
translation.paragraphs.sentences[i].text	string	翻訳されたテキスト。 ASR 結果に対応します。

自動チャプター (チャプター認識)

パラメーター	タイプ	説明
autoChapters	list[]	0、1、または複数のチャプターの概要を含む可能性のあるチャプター概要結果。
autoChapters[i].id	int	チャプターのシリアル番号。
autoChapters[i].start	long	チャプターの開始時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
autoChapters[i].end	long	チャプターの終了時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
autoChapters[i].headline	string	チャプターの見出し。
autoChapters[i].summary	string	チャプターの概要。

会議支援 (キーワード、主要な文、To Do 項目の抽出を含むインテリジェントな議事録抽出)

パラメーター	タイプ	説明
meetingAssistance	object	インテリジェントな議事録の結果。空であるか、異なるタイプである可能性があります。
meetingAssistance.keywords	list[]	抽出されたキーワードのリスト。
meetingAssistance.keySentences	list[]	抽出された主要な文のリスト。
meetingAssistance.keySentences[i].id	long	主要な文のシリアル番号。
meetingAssistance.keySentences[i].sentenceId	long	主要な文の ID。元の ASR 結果の文 ID に対応します。
meetingAssistance.keySentences[i].start	long	主要な文の開始時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
meetingAssistance.keySentences[i].end	long	主要な文の終了時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
meetingAssistance.keySentences[i].text	string	主要な文の情報。
meetingAssistance.actions	list[]	To Do 項目のリスト。
meetingAssistance.actions[i].id	long	To Do 項目のシリアル番号。
meetingAssistance.actions[i].sentenceId	long	主要な文の ID。元の ASR 結果の文 ID に対応します。
meetingAssistance.actions[i].start	long	主要な文の開始時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
meetingAssistance.actions[i].end	long	主要な文の終了時刻。値は、オーディオの開始からの経過時間をミリ秒単位で表すタイムスタンプです。
meetingAssistance.actions[i].text	string	To Do 項目の内容。
meetingAssistance.classifications	object	シナリオタイプ。3 つのタイプのシナリオのみがサポートされています。
meetingAssistance.classifications.interview	float	インタビューシナリオの信頼レベルのスコア。
meetingAssistance.classifications.lecture	float	プレゼンテーションシナリオの信頼レベルのスコア。
meetingAssistance.classifications.meeting	float	会議シナリオの信頼レベルのスコア。