首发于 机器之心
DeepFashion2数据集:87.3万对买家秀-卖家秀图像+海量标注

DeepFashion2数据集:87.3万对买家秀-卖家秀图像+海量标注

DeepFashion 是当前最大的时尚数据集,但它也有一些缺陷,使其与现实场景存在巨大差距。为此,本文作者提出了 DeepFashion2,其标注数量是 DeepFashion 的 3.5 倍,买家秀-卖家秀图像对数量也是前者的数倍。
选自 github,作者:switchablenorms,机器之心编译,参与:Nurhachu Null、张倩。

近年来,由于在产业中的巨大潜力,时尚图像分析成为了活跃的研究课题。但是,由于巨大的变形、遮挡,以及消费者和商业图像之间存在的服装域的差异,在实际应用中,理解时尚图像仍然是一个挑战。一些挑战可能根植于最近的基准和实际场景之间的差异。例如,现有的最大的时尚数据集 DeepFashion 就有其自身的缺点,比如说每个图像只有一件服装,稀疏的标记和姿态定义(每个服饰类别会共享 4~8 个关键点),如图 1.(a) 所示,没有每个像素的掩膜标注。

图 1.DeepFashion(a)和 DeepFashion 2(b)的对比。(a)每幅图像只有一件衣服,用 4~8 个稀疏标志标注。边界框是基于标签标记估计出来的,使得它们看起来很乱。在图(b)中,每张图像最少有一件服饰,最多有七件服饰。每件服饰都被手动标记了边界框、掩膜和密集的标注(平均每件服饰 20 个标记),还有卖家秀-买家秀图像对。

为了解决上述缺陷,这项工作提出了 DeepFashion2,这是一个大规模的基准集,具有全面的任务和时尚图像理解的标注。DeepFashion2 包含 49.1 万张图像,包含 13 种流行的服饰类别。在这个数据集上定义了全面的任务,包括服饰检测和识别、标记和姿态估计、分割以及验证和检索。所有的这些任务都有丰富的标注支持。

例如,DeepFashion2 总共有 80.1 万件服饰,如图 1(b)所示,其中每件都标有比例、遮挡、缩放、视角、边界框、密集标注和像素掩膜。这些服饰可以被归类为 4.38 万个服饰标识,其中服饰标识代表一类具有几乎相同裁剪、图案和设计的服饰。拥有同一类服饰标识的图像既有买家秀,也有卖家秀,卖家秀和买家秀组成图像对。该数据集中总共有 87.3 万买家秀-卖家秀图像对,比 DeepFashion 大 3.5 倍。上述详细的注释助力开发强大的算法来理解时尚图像。

这项工作有三个主要贡献:(1)构建了具有全面任务和标注的大规模时尚数据集基准来推动时尚图像分析。DeepFashion2 拥有最丰富的任务定义和最大数量的标签。它的标注至少是 DeepFashion[14] 的 3.5 倍,是 ModaNet [21] 的 6.7 倍,是 FashionAI [1] 的 8 倍。(2)在本文提出的数据集上仔细定义了全部任务。例如,据本文研究者所知,服饰姿态估计是首次在文献中通过对 13 个类别的姿态和标记进行定义来提出,这些姿态要比人类的姿态更多样化,更加丰富。(3)研究者用 DeepFashion2 广泛地评测了 Mask R-CNN [6],这是最近提出的一个用于视觉感知的框架。本文还提出了一个新的 Match R-CNN 来聚合所有从服饰类别、姿态以及掩膜中学习到的特征,用一种端到端的方式解决服饰图像检索的问题。DeepFashion2 和 Match R-CNN 的实现即将发布。

论文:DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

论文地址: arxiv.org/abs/1901.0797

摘要:理解时尚图像已经通过通过具有丰富的标注的基准数据集进行了提升,例如 DeepFashion,它的标签包含服饰类别、标记和卖家秀-买家秀图像对。但是,DeepFashion 有它不可忽视的问题,例如,一副图像只有一个单独的服饰,稀疏的标记(仅有 4~8 个),以及没有像素掩膜,这使得它与现实场景之间存在巨大的差距。我们通过提出 DeepFashion2 填补这种差距,以解决这些问题。它是一个含有 4 个任务的多功能基准集,包括服饰检测、姿态估计、分割以及检索。它有 80.1 万件服饰,每件都有丰富的标注,例如风格、比例、视角、遮挡、边界框、密集标记和掩膜。其中也有 87.3 万对买家秀-卖家秀图像。我们还提出了一个强大的基线模型,叫做 Match R-CNN,它是在 Mask R-CNN 的基础上构建的,用来以一种端到端的方式解决上述四种任务。我们用不同的标准在 DeepFashion2 上开展了评估。

2 DeepFashion2 数据集和基准

与现有的时尚数据集相比,DeepFashion2 有 4 个独特的特点:

  1. 大规模:它包括 49.1 万张图像,总共是 4.38 万个服饰标识(购物店展示的独特服饰)。
  2. 多功能:DeepFashion2 面向多种时尚理解任务。它丰富的标注支持服饰检测和分类、密集标注和姿态检测、实例分割以及跨域实例级别的服饰检索。
  3. 表达能力:这主要反映在两个方面。首先,单幅图像中存在多个服饰;其次,本研究有 13 种不同类别的标识和姿态。
  4. 多样性:研究者通过控制它们的 4 个属性变量来收集数据,包括尺寸、遮挡、缩放和视角,如图 2 所示,这使得 DeepFashion2 成为了一个具有挑战性的基准。

图 3(a)展示了 DeepFashion2 中不同变量属性的统计数据。(b)是 DeepFashion2 中 13 种类别的数目。(c)展示了 DeepFashion[14] 中类别的含糊不清。例如,很难区分开衫(cardigan)和外套(coat),很难区分慢跑者(joggers)和运动裤(sweatpants)。这在给数据打标签的时候会造成歧义。(d)上:出现复杂的姿态时,掩膜可能不准确。下:掩膜都是由人工精调的。

3 Match R-CNN

研究者在 DeepFashion2 上基于 Mask RCNN [6] 提出了一个强大的基线模型,名为 Match R-CNN,它是一个端到端的训练框架,联合学习了服饰检测、标志估计、实例分割和买家秀-卖家秀的检索。

图 4.Match R-CNN 的三个主要组成部分:一个特征提取网络(FN)、一个感知网络(PN)以及一个 match 网络(MN)。

4 实验

研究者通过评估 Mask R-CNN [6] 和 Match R-CNN,在多项任务中展示了 DeepFashion2 的有效性,包括衣物检测和分类、标志估算、实例分割和买家秀-卖家秀服饰检索。

表 3: 在不同的验证子集上使用 Mask R-CNN [6] 的标志估计,包括尺寸、遮挡、缩放和视角。

图 5:(a)展示了服饰检测失败的例子;(b)展示了服饰分割失败的例子。在(a)和(b)中,缺失的边界框用红色绘制。不准确的掩膜也在图(b)中用箭头标出来了。

图 6:(a)展示了标志和姿态估计的结果。(b)展示了服饰分割的结果。(c)展示了服饰查询的 top 5 的结果。第一列是买家秀图像,它具有由检测模块预测的边界框,第二列到第六列展示了卖家秀图像检索结果。(d)在整体查询验证集上的检索精度,(1)是检测框,(2)是真实框。

表 4: 在不同的验证集上使用 Mask R-CNN [6] 进行服饰分割的结果,包括尺寸、遮挡、缩放和视角。

聚圣源波士顿龙虾的做法朱起名甜蜜家园第二季什么时候出姿姿堂刺客信条3狩猎地图美国vs西班牙宝宝起名字网免费湖北联通网上营业厅我的师门有点强专卖店起名畜牧业养殖场起名字大全按照中文起英文名奶茶店铺起名办公室强制道具调教h小名怎么起五行带火女孩名字大全带火属性女宝宝起名公司起名两个字大全集饭店起名带顺字的名字玄幻小说起名茶颜悦色奶茶店加盟费多少甜甜的疼痛池上古诗属鼠的孩子起名需要注意什么网上起名可靠如何起装饰公司名字网速慢是什么原因近在咫尺龙凤起名大全运动场所起名中医诊所名字起名大全淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化