近期,旷视科技南京研究院发布学术界内目前最大的商品识别数据集——RPC,其图像数量和类别数量皆是该领域之最。同时,该数据集针对新零售场景定义了一个新问题,即视觉自动收银(automatic check-out, ACO),模拟零售真实结算场景。此外,还针对 ACO 任务给出了一套完整的 Baseline Method,以及“整单准确率”cAcc为代表的一系列评测指标,更有可以直接安装的 Python 版本评测工具。同名 GitHub 项目主页上有 Leaderboard,欢迎大家来刷榜!
论文链接:https://arxiv.org/abs/1901.07249
项目链接:https://rpc-dataset.github.io/
零售业是人力密集型行业,其中收银结算占有相当高的成本。随着深度学习发展,借助图像识别技术实现零售行业的降本增效已是大势所趋。自动收银结算(Automatic Check-Out/ACO)是其中的核心场景,旨在根据收银场景图像生成结算清单,并与计算机视觉技术的融合不断加深。
CV 技术+场景,从来不是一条坦途。从图像识别角度讲,ACO 的落地布满靳棘,其中既有来自数据本身的问题,也有模型训练的因素,最后可归结为 4 个方面: 1)large-scale,2)fine-grained,3) few-shot 和 4)cross-domain。
尽管存在上述问题,ACO 还是有着潜在的研究与商业价值。如果有标注精良的数据集,这一问题或可迎刃而解。为此,旷视科技南京研究院打造了一个目前最大的商品识别数据集——RPC(Retail Product Checkout),来推动新零售自动收银场景的相关研究和技术进步,它的商品种类高达 200,图像总量达 83k,真实模拟零售场景,且逼真度超过现有同类数据集,同时充分体现出 ACO 问题的细粒度特性。
图 2:RPC 数据集对比同类数据集。
RPC 数据集有两种形态的图像:1)单品图(exemplar image),在受限环境下拍摄,只包含单一产品,对应于网购商品图;2)结算图( checkout image),包含用户购买场景下的多个商品,有助于研究者解决相关子问题,比如检测或计数。
数据集的基准还在进行之中,目前最好的基线来自基于 Cycle-GAN 的数据合成方法。
ACO 任务
当顾客走进商店,把要购买的商品放在收银台上,一个理想的 ACO 系统可以自动识别每个商品,并一次性准确给出购物清单,如图 1 所示。
图 1:ACO 图示。
因此,ACO 本质上是识别任意商品组合中每个商品的出现并计数的一个系统。
一般来讲,为保证性能,训练 ACO 识别系统的图像应该和实际收银场景一模一样。但是由于海量的商品类别加之不断更新,让识别模型穷尽所有的商品组合是不现实的,因此一个可行的解决方案是在特定环境下采集一类单品图像,并将其复用至实际结算中。
RPC 数据集特点
旷视提出的 RPC 数据集具有 6 个方面的特性。
量大:无论是从图像数量还是商品种类(SKU)上来看,RPC 都是该领域之最:SKU 达 200 个,图像数量 83,739 张,其中单品图 53,739 张,结算图 30,000 张。
跨域:RPC 中图像数据分为单品图和结算图两种形态。模型需在单品图上进行训练,但真正测试环境则为结算图。
图 3:单品图。
图 4:结算图。
2025-04-24 08:29
2025-04-24 08:26
2025-04-24 08:25
2025-04-24 08:24
2025-04-24 08:24
2025-04-24 08:23
2025-04-24 08:22
2025-04-24 08:21
2025-04-23 11:50
2025-04-23 11:50