一般来说,比较成熟的竞赛榜单分为两种,一种是公共榜单,一种是最后的私有榜单。

对应的数据也不相同,分为验证集和测试集。

这两部分数据的真实答案都不会公布出去,但在参赛者提交结果之后,公共榜单只会公布验证集部分的结果供大家参考,而不会公布最终测试集上的结果和内容。

这是因为实时的榜单排名只是为了帮助大家理解自己的算法大概在什么水平,和最强的算法差了多少。虽然没有直接提供答案,但是如果参赛者调整设置反复提交结果,还是可以一定程度上分析到这部分数据的内容和分布的。

故而,这部分数据只做参考之用,最终决定排名的只有测试集的那部分。因此赛事的公共榜单只能一定程度上反应问题,没法百分之百地表示最终的名次。

“虽说有的赛时榜单根本不用于最后的排名,但人们却很容易被这种榜单的魔力所吸引。”孟繁岐想起后世和唐璜参加过两次小型比赛,不知道为什么整天就想盯着那个榜单使劲看。

自己的提交成绩高了一名,低了一名都会引起心情的巨大波动。

“什么行业都是这样的,你看什么小说行业,影视剧行业,明星行业。创造焦虑嘛。”唐璜不以为然,“没有焦虑就搞个榜单创造焦虑,人人都想当人上人,这榜单一出啊,就像是平静的水池里洒进了一把鱼饵。原本翻着肚皮不动弹的鱼就全活络起来了。”

“体育圈也是,最爱说谁是GOAT(历史最强),什么詹姆斯PK科比,梅西对战C罗。”唐璜继续吐槽道,体育圈现在饱受这种风气所害,马上都快变成饭圈了,“统计的数据也越来越多越来越离谱,以前就统计一个进球,现在连哪个部位进的球也统计,我前几天还看到有人说C罗的弟弟进了一个球。”

孟繁岐在查看提交结果的信息,乍一听愣了一下,“C罗还有弟弟呢?”

仔细一想才回过味来,搞了半天是二弟。

其实11月11号,提交网站就已经被公布出来了,这一年的提交窗口期很短,也不像后来的很多竞赛那样分验证集,在赛时开放公共榜单提交。

11月13号,结果的提交就会截止。

不知不觉又是四五十天过去,孟繁岐反复打磨了几遍这几篇论文。

不仅如此,等到后来他发觉论文里的实验已经跑完,便将检测算法接在了已经训练了很久的分类模型上,又跑起了检测赛事的数据。

检测任务是分类任务的进阶,在你的程序分辨出这张图片的类别之后,更进一步的操作就是用矩形框把该物体的位置在图片中位置给圈出来。也就是后来大家熟悉的人脸上的框框。

再进一步就是分割了,不采用矩形框这样大的,规则的图形,而是像素级别地把某个物体的细致轮廓在图片上表示出来,也就是一种类似自动抠图的操作。

当然了,不论是检测还是分割,都是需要人工去标注训练集的原始答案的。

IMAGE-2013的检测赛道数据集不算太大,一共接近40万张图片,共区分200类。这种进阶类型的数据,标注起来要辛苦很多,因此数据量和分类不可同日而语。

不过,相比2012年的5717张,区区一年的时间,已经是百倍的巨大飞跃了。

“没想到时间竟然会这么多。”孟繁岐记得这时候的检测大多数还是基于传统HOG,LBP的办法,在13年的这个数据集上mAP最高也就0.225左右。

自己既然来得及完成论文上的实验,自然要抽空去降维打击一下这些老古董方法。

每个参赛队伍在各任务上有三次提交的机会,孟繁岐只需要一次就够了。

参与竞赛的队伍往往会训练好几个版本的模型,然后做一些排列组合的集成,分多次提交,以确保自己的结果不会被一些不稳定的因素影响。

这也是追求更高性能的一种办法,因为谁也无法保证自己的哪一次结果在位置的数据上性能最好。

有时候第一名和第二名,就差在毫厘之间,可能只是小数点后的两三位。

只是孟繁岐完全没有这个必要这么做。



本章未完 点击下一页继续阅读