PAI で LVM を使用して画像キャプションを生成する - PAI

画像キャプションアルゴリズムは、コンピュータビジョンと自然言語処理を統合したモデルであり、入力画像の自然言語記述を生成するように設計されています。視覚障害者、ソーシャルメディアコンテンツの作成、画像検索、電子商取引ディスプレイ、ニュースリリースを支援する幅広いアプリケーションがあり、情報のアクセシビリティとユーザーエクスペリエンスを大幅に向上させます。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

アルゴリズム

LVM-Image-Caption Mapper (DLC) コンポーネントは、Bootstrapping Language-Image Pre-training (BLIP) モデルを使用して画像テキストを生成します。

入力と出力

入力ポート

ファイルデータの読み取りコンポーネントは、トレーニングデータが保存されているObject Storage Service (OSS) パスを読み取るために使用されます。
Image Data OSS Pathパラメーターを設定して、画像データが保存されているOSSディレクトリを選択したり、画像メタデータファイルを選択したりできます。詳細については、次のセクションのパラメーターの説明をご参照ください。
画像データの前処理には任意のコンポーネントを入力として使用できます。

出力ポート

結果。詳細については、次のセクションのパラメーターの説明をご参照ください。

コンポーネントの設定

Machine Learning DesignerでLVM-Image-Caption Mapper (DLC) コンポーネントのパラメーターを設定できます。下表に、各パラメーターを説明します。

タブ	パラメーター		必須	説明	デフォルト値
フィールド設定	イメージデータOSSパス		選択可能	このコンポーネントを初めて実行するときにアップストリームコンポーネントが存在しない場合は、イメージデータが保存されているOSSディレクトリを手動で選択する必要があります。コンポーネントを実行すると、このパラメーターで指定したディレクトリの上位ディレクトリにイメージメタデータファイルmeta.jsonlが生成されます。後でコンポーネントを使用して画像データを処理する場合、ファイルmeta.jsonlを直接選択できます。	デフォルト値なし
	出力ファイルOSSパス		必須	結果が保存されるOSSディレクトリ。結果には次のファイルが含まれます。 {name}.jsonl: 出力ファイル。 [Output Filename] パラメーターを設定して、出力ファイルを指定できます。 dj_run_yaml.yaml: アルゴリズムの実行時に使用されるパラメーター設定ファイル。	デフォルト値なし
	出力ファイル名		必須	結果のファイル名。	result.jsonl
Parameter Settings	候補キャプションの数		必須	生成されたテキスト候補の数。	1
実行チューニング	リソースグループの選択	パブリックリソースグループ	選択可能	使用するインスタンスタイプ (CPUまたはGPU) と仮想プライベートクラウド (VPC) 。アルゴリズムのGPUインスタンスタイプを選択する必要があります。	デフォルト値なし
	リソースグループの選択	専用リソースグループ	選択可能	使用するvCPU、メモリ、共有メモリ、およびGPUの数。	デフォルト値なし
	最大実行時間 (秒)		選択可能	コンポーネントを実行できる最大期間。指定した時間を超えた場合は, ジョブを終了します。	デフォルト値なし