视觉-语言多模态基础大模型(如CLIP,SAM)近年来成为了主流研究的关注点之一。类比于ChatGPT的成功,多模态大模型一个巨大的应用价值就是下游任务的零样本(zero-shot)泛化能力。本赛题旨在利用已有的基础大模型,通过设计有效的视觉提示( visualprompt )和其他推理策略实现高性能零样本下的指代表达理解任务(Referring Expression Comprehension, REC),即通过语言描述来定位图像中的目标物体框,如图所示:
数据部分我们将先提供validationset,testAset。validationset包含图像、候选目标初始框、语言描述查询、GT,便于选手迭代算法;testAset仅包含图像、候选目标初始框、语言描述查询。
相关数据请直接解压缩data/val.zip和data/testa.zip即可。
任务是零样本设定,因此没有任何训练数据,选手也无需训练任何神经网络模型,赛题只提供测试数据。赛题拟为参赛选手提供:
1.由MAttNet为每张测试图片检测得到的候选目标初始框;
2.SAM-ViTHuge;
3.CLIP模型的ViT-B/32和RN50x16backbone版本。
选手利用且仅可利用上述预训练基础模型及所提供的候选目标初始框,通过设计有效的视觉提示流程和其他特定策略,实现高性能零样本下的指代表达理解任务。
我们将提供ReCLIP:AStrongZero-ShotBaselineforReferringExpressionComprehension(ACL2022)的源码,并给出运行和保存/提交结果的流程。赛题描述中提及的CLIP相关的预训练模型在代码中会自动下载,SAM的相关模型请选手自行从SAM的官网github:https://github.com/facebookresearch/segment-anything自行下载使用。
环境配置:pipinstall-rrequirements.txt
官方提供的代码包含了生成预测框结果并保存json文件的代码,以及根据预测结果计算得分代码
split:数据集划分,取值可以为val,testa和testb
save_dir:保存结果的路径
推理并保存/提交结果:
CUDA_VISIBLE_DEVICES=0pythonmain.py\
--input_file'data/{split}.jsonl'\
--detector_file'data/dets_dict.json'\
--image_root'data/train2014'\
--clip_model'ViT-B/32,RN50x16'\
--cache_path'{save_dir}/cache'\
--results_path'{save_dir}/{split}.json'
计算结果得分:
CUDA_VISIBLE_DEVICES=0pythonval.py\
--input_file'data/{split}.jsonl'\
--results_path'{save_dir}/{split}.json'
记语言查询数量为,每个语言查询所得到的检测框和对应GT如果则记为一次命中,记命中总数为,最终准确率指标为。
初赛阶段:保存所有样本的预测框为json文件,文件名称保存为:队伍名.json,提交网页即可,json文件的生成脚本见上文的解题思路部分。
json文件参考格式:其中x1,y1代表回归框左上角坐标,x2,y2代表右下角坐标
[[x1,y1,x2,y2],
[x1,y1,x2,y2],
[x1,y1,x2,y2],
…]
后续阶段:要求提交可编译运行的作品源代码以及运行命令说明文件
参赛QQ群:833020799
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。