LVM-图像文本匹配度过滤(DLC)组件主要用于过滤文本-图像匹配度过低的图像数据。
支持的计算资源
算法说明
通过计算图像的描述和训练数据中的描述文本(训练数据示例文件中<__dj__video>字段后面的内容)的匹配度(基于blip-itm-base-coco计算),从而过滤匹配度过低的图像来保证图像的质量,常用于后续图像生成模型的训练。训练数据文件格式说明:
输入数据格式为jsonl格式文件;其中文本字段中的"<__dj__image>"和"<|__dj__eoc|>"分别对应图像描述文本的起始和终止标志。
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image1.jpg"],"text":"<_dj__image> optional image caption <|__dj__eoc|>"}
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image2.jpg"],"text":"<_dj__image><|__dj__eoc|>"}
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image3.jpg"],"text":"<_dj__image> a person pointing to a piece of wood on the ground\n"}
{"images":["oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image4.jpg", "oss://bucket_name.oss-cn-hangzhou.aliyuncs.com/image/data/image5.jpg"],"xxx":"yyy"}
-
images字段,为图像的OSS路径。
-
text字段,即上述算法说明中的描述文本。
输入/输出
输入桩
-
通过读OSS数据组件,读取训练数据文件所在的OSS路径。
-
配置此算法参数图像数据OSS路径,选择训练数据文件。
关于训练数据文件,详情请参见算法说明。
输出桩
过滤结果。详情请参见下文中的参数说明。
配置组件
在Designer工作流页面添加LVM-图像文本匹配度过滤(DLC)组件,并在界面右侧配置相关参数:
|
参数类型 |
参数 |
是否必选 |
描述 |
默认值 |
|
|
字段设置 |
图像数据OSS路径 |
否 |
训练数据文件,详情请参见算法说明。 |
无 |
|
|
输出文件的OSS路径 |
是 |
过滤结果的存储目录。过滤结果包含以下文件:
|
无 |
||
|
输出的文件名 |
是 |
过滤结果的文件名。 |
result.jsonl |
||
|
参数设置 |
最小文本-图像匹配度 |
是 |
需要保留的最小文本-图像匹配度。 |
0.1 |
|
|
最大文本-图像匹配度 |
是 |
需要保留的最大文本-图像匹配度,一般设置为1。 |
1 |
||
|
执行调优 |
选择资源组 |
公共资源组 |
否 |
选择节点规格(CPU或GPU实例规格)、专有网络。该算法需使用GPU规格实例。 |
无 |
|
专有资源组 |
否 |
选择CPU核数、内存、共享内存、GPU卡数。 |
无 |
||
|
最大运行时长 |
否 |
组件最大运行时长,超过这个时间,作业会被终止。 |
无 |
||