解决网
首页 > 资讯教程 > 智能科技 > 智能穿戴 > AI落地进入Hard模式!拼算法不如拼高质量数据

AI落地进入Hard模式!拼算法不如拼高质量数据

作者: 来源: 2021-07-23 20:30:18

大名鼎鼎的横店影视城有着这么一群人。他们每天穿梭于各大剧组,换上威武的武士服和漂亮的古装,在满满的通告中获取一份相对稳定的收入。有时运气好了可以讲一两句台词,和大明星合个影,也能自豪地给家里人讲自己风光的一面。 如果你看过尔冬升导演的《我是路人甲》,你可能对这帮“群演”的故事不会陌生。 随着《甄嬛传》《琅琊榜》和《庆余年》等热门剧集的影响,横店的势头也步步高升。然而,2015年随着“限古令”的公布,每年来横店的剧组数量从几十个锐减至十几个。 以前一天可以跑三四个通告,现在可能两天才能拿到一个。 通告的减少,不少“群演”收入锐减,甚至开始做起了快递分拣、送外卖的兼职工作。而这其中,有这样一批“演员”,还能幸运的靠演技谋得一份生路。虽然这次,雇主不再是影视公司,而是和人工智能密切相关的AI数据企业。 被作为“自动驾驶”数据采集的这批群演们自称“车模”,在通过“数据测试”后,他们会被叫到几辆汽车前,进入规定车辆的驾驶位上做出转头、摇头和拿水杯等动作。半小时的采集工作,可以给他们相当于片场“半个工”(半个工作日)的薪水。 这些群演们可能自己都意识不到,自己在做的事情正在为这个智能时代产生巨大的价值。 人工智能时代,数据是和算法、算力一样必不可少的生产力。我们无时无刻都在产生数据,但“数量庞大”这一标准已远不能满足这个时代的需要。 就如纯度高的黄金需要杂质少的原材料,像上面这样找专业人士获取特定的、高质量的AI数据的需求,已经成为一种常态。 AI数据的生产模式已经从小作坊,转向更专业的生产机构。入局这一赛道的,除了BAT、京东等需要满足自身数据需求的大厂,也有越来越多专业化的超高质量数据服务平台。 那么,各大人工智能厂商不惜重金、趋之若鹜的AI数据,为什么这么重要呢?“更高更快更强”:助推算法精准度,高质量数据必不可少 如果把人工智能研究比作一场奥运比赛,那么提高深度学习模型的契合度、努力刷新前人的记录,是研究者们追求的共同目标。对深度学习来说,算法提供了整体的框架,算力提供着训练的动能,而没有高质量数据,再怎么萃取也不会有高质量的精华。 行业中,开发人员会戏称训练深度学习模型的过程为“炼丹”。想要炼出太上老君的仙丹,光有一口好炉子(算法)和充足的火力(算力)还远远不够,纯度高的原材料(数据)万万不可或缺。而越是好炉子,对原材料的精细度越是挑剔。 近年来,大数据的井喷逐渐推动着算法和算力的发展。有了过硬的算法和算力,相较于数量上的竞赛,各大公司争先恐后地想搞出些“真刀真枪”来进行比拼。在这样的背景下,为了提升AI的准确性,向产品落地的方向更进一步,企业们已把眼光从之前对数据“数量”的要求转向对“质量”的要求。 作为AI数据服务行业内头部代表企业,云测数据总经理贾宇航用简单的实例为我们解释了自动驾驶场景下精准数据的重要性,“公司对数据精度的高要求,是由于很多算法落地的过程之中,AI需要达到这样的精度,才能够去做到一个相应的运转。“ “拿自动驾驶为例,如果你的训练数据中的车都是白车,实际情况中突然出现红车,基于训练数据总结出的规律,可能AI就不认为这是一辆汽车。” 在开头描述的横店群演们的“车模”新工作,就是云测数据为自动驾驶客户提供的基于真实场景的数据采集服务。复杂的场景中,高质量数据拒绝AI的“错误”行为 人工智能正在进入更加复杂的应用领域,除了对数据精准度的要求,现实场景的复杂度也成为人工智能落地前的痛点,两者结合对AI数据提出了更高的要求。云测数据所提供的服务正是解决了当下数据需求痛点。 微软的沈向洋博士曾经在清华的就职演讲中,用这样一个案例讲述了在图片识别领域,高质量AI数据的重要性。 在一个认出“哈士奇狗”的训练任务中,AI在六张图片中鉴别对了其中五张,但进一步观察判断的依据,AI其实是在用“图片中有没有雪”这一特征进行判断。很显然,由这样的数据训练出来的AI不是一个“哈士奇分类器”,而变成了一个“场景分类器”。 AI之所以会在这里出现“错误”,是因为算法会让它在训练过程中,确保大部分训练数据的准确率够高。大部分训练数据的准确率高了,整体的准确率就有保证。想要做到这一点,提取这大部分数据中共有的关键特征,再根据数据中有无这些特征进行判断就可以了。在上面鉴别哈士奇图片的例子中,图片中“有没有雪”就是这一关键特征,而高质量(准确)的数据在这里就显得十分重要。 采访中,云测数据也向我们指出了复杂的场景带来的挑战。“近年来,因为使用的场景非常复杂,AI公司对数据的数据标注的精度和场景多样性的要求越来越高。某些人工智能应用可能换一种情景就行不通,比如语音识别,可能在普通话的情况识别率很高,但换了方言就行不通。所以说,当你训练数据的覆盖场景越多、数据标注的的精准度越高,实际上AI总结出来的规律也就越正确。”贾宇航说道。 为了保证AI总结出正确的规律,训练数据的多样性是一个关键。春夏秋冬的哈士奇,全身半身的哈士奇,只露一个耳朵的哈士奇,丰富的数据是避免AI错误的一剂良药。 贾宇航介绍道:“举个例子说,想要做一个全球适用的人脸识别系统,黑、白、黄,各肤色的数据是必不可少的,甚至在每种肤色下面还要细分种类。同时各个年龄层面也都要考虑。“ 通过这样丰富的数据,或者说,高质量的数据,我们训练出来的AI就会更有可信度,落地的产品也才会更加可靠。 以一敌百万:随机数据让算法更聪明! 刚刚提到的方言识别是语音助手面对的挑战之一,除此之外,外部噪音对人声的影响也是语音识别行业一个亟待解决的问题。 借用吴恩达深度学习课程中的例子,训练车内的语音AI时,我们需要人们在「车内讲话」的音源。这是因为由于行驶时的噪音的存在,我们在车中讲话的声音和平常是不同的。 为了提升模型识别的精准度,我们需要为算法搜集定制化的车内噪声数据。传统的实验室做法是这样的:为了制作出车中的人声,将一段搜索到的白噪音与一万条人声数据分别拼接。看上去我们获得了一万条车中人声的数据,但通过这样的操作得出的模型,在现实场景中往往很快“扑街”。 为什么呢?这里就涉及到了数据搜集的“随机性”问题。 我们对数据多样性的要求,其实和统计学中随机性这一概念息息相关。想要涵盖各年龄层,各方言层的数据,其实是给样本注入随机性——为了让样本更能代表整体。刚刚提到的合成人声,数据量看起来很多,但实际情况的车内人声变化多端,我们合成的一万条数据看似很多,但很可能并不具有现实代表性。 大家都知道随机性很好,但它究竟好到什么程度?让我们回到统计学的基本概念中来看看。 假设我们想要估计全国人民使用某电商品牌的比例,称这个数字为p。我们可以使用互联网上现成的观测性大数据(observational data)。但在这个数据集中,一个人被抽到的概率和这个人使用电商的概率是相关的(称这个相关性为r,r越小数据越随机)。 比较之下,我们还可以采取简单随机抽样(SRS, simple random sample),避免相关性的问题。 假设我们在简单随机抽样中抽取了n个样本,而使用的观测性大数据中包含的全国人口比例为f。我们用常用的MSE(Mean Squared Error,平均误差)来衡量误差,在这两种情况下,MSE分别是:
返回顶部