LVM-图像文本匹配度过滤组件说明 - 人工智能平台 PAI

支持的计算资源

算法说明

通过计算图像的描述和训练数据中的描述文本（训练数据示例文件中<__dj__video>字段后面的内容）的匹配度（基于blip-itm-base-coco计算），从而过滤匹配度过低的图像来保证图像的质量，常用于后续图像生成模型的训练。训练数据文件格式说明：

输入数据格式为jsonl格式文件；其中文本字段中的"<__dj__image>"和"<|__dj__eoc|>"分别对应图像描述文本的起始和终止标志。

{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image1.jpg"],"text":"<_dj__image> optional image caption <|__dj__eoc|>"}
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image2.jpg"],"text":"<_dj__image><|__dj__eoc|>"}
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image3.jpg"],"text":"<_dj__image> a person pointing to a piece of wood on the ground\n"}
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image4.jpg", "oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image5.jpg"],"xxx":"yyy"}

images字段，为图像的OSS路径。
text字段，即上述算法说明中的描述文本。

输入/输出

输入桩

通过读OSS数据组件，读取训练数据文件所在的OSS路径。
配置此算法参数图像数据OSS路径，选择训练数据文件。

关于训练数据文件，详情请参见算法说明。

输出桩

过滤结果。详情请参见下文中的参数说明。

配置组件

在Designer工作流页面添加LVM-图像文本匹配度过滤（DLC）组件，并在界面右侧配置相关参数：

参数类型	参数		是否必选	描述	默认值
字段设置	图像数据OSS路径		否	训练数据文件，详情请参见算法说明。	无
	输出文件的OSS路径		是	过滤结果的存储目录。过滤结果包含以下文件： {name}.jsonl：过滤结果文件，即下面参数输出的文件名。 {name}_stats.jsonl：过滤状态文件。 dj_run_yaml.yaml：算法运行时的参数配置文件。	无
	输出的文件名		是	过滤结果的文件名。	result.jsonl
参数设置	最小文本-图像匹配度		是	需要保留的最小文本-图像匹配度。	0.1
参数设置	最大文本-图像匹配度		是	需要保留的最大文本-图像匹配度，一般设置为1。	1
执行调优	选择资源组	公共资源组	否	选择节点规格（CPU或GPU实例规格）、专有网络。该算法需使用GPU规格实例。	无
	选择资源组	专有资源组	否	选择CPU核数、内存、共享内存、GPU卡数。	无
	最大运行时长		否	组件最大运行时长，超过这个时间，作业会被终止。	无