画像キャプションアルゴリズムは、コンピュータビジョンと自然言語処理を統合したモデルであり、入力画像の自然言語記述を生成するように設計されています。 視覚障害者、ソーシャルメディアコンテンツの作成、画像検索、電子商取引ディスプレイ、ニュースリリースを支援する幅広いアプリケーションがあり、情報のアクセシビリティとユーザーエクスペリエンスを大幅に向上させます。
サポートされるコンピューティングリソース
アルゴリズム
LVM-Image-Caption Mapper (DLC) コンポーネントは、Bootstrapping Language-Image Pre-training (BLIP) モデルを使用して画像テキストを生成します。
入力と出力
入力ポート
ファイルデータの読み取りコンポーネントは、トレーニングデータが保存されているObject Storage Service (OSS) パスを読み取るために使用されます。
Image Data OSS Pathパラメーターを設定して、画像データが保存されているOSSディレクトリを選択したり、画像メタデータファイルを選択したりできます。 詳細については、次のセクションのパラメーターの説明をご参照ください。
画像データの前処理には任意のコンポーネントを入力として使用できます。
出力ポート
結果。 詳細については、次のセクションのパラメーターの説明をご参照ください。
コンポーネントの設定
Machine Learning DesignerでLVM-Image-Caption Mapper (DLC) コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 | |
フィールド設定 | イメージデータOSSパス | 選択可能 | このコンポーネントを初めて実行するときにアップストリームコンポーネントが存在しない場合は、イメージデータが保存されているOSSディレクトリを手動で選択する必要があります。 コンポーネントを実行すると、このパラメーターで指定したディレクトリの上位ディレクトリにイメージメタデータファイルmeta.jsonlが生成されます。 後でコンポーネントを使用して画像データを処理する場合、ファイルmeta.jsonlを直接選択できます。 | デフォルト値なし | |
出力ファイルOSSパス | 必須 | 結果が保存されるOSSディレクトリ。 結果には次のファイルが含まれます。
| デフォルト値なし | ||
出力ファイル名 | 必須 | 結果のファイル名。 | result.jsonl | ||
Parameter Settings | 候補キャプションの数 | 必須 | 生成されたテキスト候補の数。 | 1 | |
実行チューニング | リソースグループの選択 | パブリックリソースグループ | 選択可能 | 使用するインスタンスタイプ (CPUまたはGPU) と仮想プライベートクラウド (VPC) 。 アルゴリズムのGPUインスタンスタイプを選択する必要があります。 | デフォルト値なし |
専用リソースグループ | 選択可能 | 使用するvCPU、メモリ、共有メモリ、およびGPUの数。 | デフォルト値なし | ||
最大実行時間 (秒) | 選択可能 | コンポーネントを実行できる最大期間。 指定した時間を超えた場合は, ジョブを終了します。 | デフォルト値なし | ||