AI时代|澳鹏:用“负责任的AI数据”,诠释真实而完整的世界

编者按:国家在“十四五”时期经济社会发展指导方针和主要目标中指出:强化国家战略科技力量。瞄准人工智能、量子信息、集成电路、生命健康、脑科学、生物育种、空天科技、深地深海等前沿领域,实施一批具有前瞻性、战略性的国家重大科技项目。在未来,社会经济将与互联更加融合,企业机构的业务也将全转变为互联业务。人工智能的发展离不开大数据,万物互联的时代,企业将实现从流程驱动变为数据智能驱动。

从国家层面而言,国家也非常重视大数据建设。在国家“十四五”规划和2035年远景目标纲要草案中,“加快数字发展 建设数字中国”单独设了篇章,并新增了“数字经济核心产业增加值占GDP比重”的指标:到2025年提至10%。今年的政府工作报告也提到:加快数字化发展,打造数字经济新优势,协同推进数字产业化和产业数字化转型,加快数字社会建设步伐,提高数字政府建设水平,营造良好数字生态,建设数字中国。

另外,中共中央、国务院在关于支持深圳建设中国特色社会主义先行示范区的意见中也曾提到:“综合应用大数据、云计算、人工智能等技术,提高社会治理智能化专业化水平。加强社会信用体系建设,率先构建统一的社会信用平台。加快建设智慧城市,支持深圳建设粤港澳大湾区大数据中心。探索完善数据产权和隐私保护机制,强化网络信息安全保障。”

从国家一系列的政策部署中可以看出,数字经济已成为引领经济社会变革、推动我国经济高质量发展的重要引擎。大数据在推动人工智能的技术发展以及整个社会的发展方面都将起到非常重要的作用。

本期《AI时代》针对人工智能大发展时代背景,采访全球领先的数据服务提供商澳鹏 Appen Ltd.(以下简称“澳鹏”)【展位号:B34】全球副总裁、大中华区总经理田小鹏,从大数据领域对行业发展做深入探讨。

田小鹏1999年获得上海交通大学计算机软件博士学位,SEI CMU认证的SEI CMMI SCAMPI A高成熟度主任评估师(编号0600719-01),中国系统与软件过程改进委员会(CSSPI)专家组成员,现任澳鹏(Appen)全球副总裁,大中华区总经理。曾先后担任IBM大中华区咨询服务集团客户服务总经理,IBM全球软件服务中心(中国区)总经理,合伙人、IBM大中华区咨询服务集团公共事业部(Public) 总经理、IBM大中华区咨询服务集团企业应用服务线总经理、IBM全球软件服务中心(中国)集成服务线总经理、中国惠普全球软件服务中心任咨询和品质总监等职务。

关于澳鹏【展位号:B34】

澳鹏 (Appen Ltd.) 成立于1996年,是全球领先的图像、文本、语音、音频、视频等AI训练数据服务提供商,拥有业内最先进的人工智能辅助数据标注平台和一体化AI数据及资源管理平台及全球100多万名技能娴熟的众包资源,涵盖235多种语言和方言,来自全球170多个国家和地区。澳鹏通过高质量训练数据交付,为全球科技、汽车、金融服务、零售、医疗和政府等行业赋能,帮助企业构建并持续完善全球最具创新性的人工智能系统,助力企业自信地部署世界一流的人工智能产品。澳鹏已在全球助力7500多个世界前沿的AI 项目的研发及商业化,合作客户包括谷歌、微软、亚马逊、IBM及中国本土领先企业等。

Q1:中央近日发布的“十四五”规划中提出:「把科技自立自强作为国家发展的战略支撑」。「科技」一词在整个「十四五规划建议」全文中一共出现了36次,是绝对的高频词汇。其中,「建议」将人工智能列举为“具有前瞻性、战略性的国家重大科技项目”之中的前三位,在一定程度上反映出人工智能在国家战略重要性上的优先级。您如何看待当前火热的人工智能市场?数据在其中的作用又是什么?

田小鹏:人工智能作为国家的发展战略,重要性毋庸置疑,国家肯定会对其进行长期的、持续的资金投入和政策引导。根据我们的调查发现,近几年我国人工智能正在飞速发展。首先,我国人工智能市场规模每年保持30%以上的增长速度,人工智能企业遍地开花,北京、上海、深圳拥有的人工智能企业数量均超过1000家;其次,我国人工智能技术专利申请总量在世界范围内遥遥领先。既然国家把人工智能作为优先级的产业去发展,前景肯定是非常广阔的。

当前,人工智能正在赋能千行百业,是推动我国经济高质量发展的重要驱动力量,是产业智能化升级的助推器,不管是在智慧金融、智慧教育、智慧医疗、智慧交通,还是在自动驾驶等领域,都离不开人工智能技术和产品。

而数据的质量直接影响着算法的精度和AI部署的成功率,艾瑞咨询发布的2020年《中国AI基础数据服务行业发展报告》显示,“目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要加速落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法支撑,可以说数据决定了AI的落地程度,是商业化过程中重要的一环”。

Q2:是的,可以说目前AI早已不再只是一个符号,而是已经逐渐转变成了产业的生产模式、人们的生产方式。我们关注到,澳鹏提出“以AI的方式服务于AI”,具体是指什么呢?

田小鹏:澳鹏是一家聚焦于人工智能的数据服务商,通过可靠的训练数据,为全球科技、汽车、金融服务、零售、医疗和政府等行业赋能,帮助企业构建并持续完善全球最具创新性的人工智能系统,助力企业自信地部署世界一流的人工智能产品。澳鹏的特色的确是“用AI的方式服务AI”,我们打造了一个一体化数据标注平台,在这个平台上我们引入AI算法来提升我们在数据领域多方面的要求。

随着AI技术的不断发展和普及,越来越多的企业正在走向AI的道路,与此同时也对训练数据提出了更高的要求,不仅包括数据的数量和质量、安全性和无偏见,也包括采标流程一体化。在数据采集和标注的过程中,如果单纯依靠人工进行校验,在成本、准确率和时效性方面都会造成不足。而澳鹏的一体化数据标注平台采用的是“平台+人工”的方式处理数据,通过人工与人工智能相结合的方式,无论是在数据的质量还是标注效率上,比单纯依靠人工,都有大幅提升。澳鹏拥有一支专业的AI科学家团队,他们本身的研究方向便是如何通过机器学习、深度学习等技术,让澳鹏更好地“以AI的方式服务于AI”。

(澳鹏采标流程一体化,实现数据质量及标注效率大幅提升)

最后是质检,在质检的环节我们会去埋藏一些检查点,来保证我们提交的数据是一个完整的,而且是没有偏见的数据。

澳鹏中国研发中心将全球经验融会贯通,针对本土AI行业的特点,投入大量研发资源打造了专注服务中国市场的“端到端”高质量AI数据服务平台。澳鹏中国数据标注平台自2019年上线至今广受好评,已交付了上百个大型项目,提供包括语音、图像、视频等各种各样的数据服务,涉及的行业涵盖电商、教育、医疗、社交、电子、自动驾驶等领域。澳鹏具备从数据需求提出到策略制定、数据收集、高精度标注/分类、数据分析和数据服务,直到数据全量交付的核心场景功能。

Q3:您提到的澳鹏中国数据标注平台,具体都有哪些优势?近期是否有成功合作的案例,可以分享一下吗?

田小鹏:澳鹏中国数据标注平台是一体化的数据标注平台,发展至今已经有20多年的历史,优势主要体现在:

   第一,拥有采标一体的项目管理流程。平台采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接。内置的多轮质检模块可以按需配置,可灵活满足不同复杂度项目的需求。

(澳鹏采标一体项目管理流程,内置多轮质检环节)

 第二,全球资源一键对接。澳鹏中国数据标注平台对接全球超过100万名众包资源,涵盖170多个国家或地区、235+种语言和方言。平台在中国落地以来,已迅速积累了超过数十万名本土众包资源,这一数字正在快速增长中。澳鹏严格保护所有注册标注员的个人隐私,提供符合各国劳动法的合作契约。

(通用点线框标注,功能丰富、可灵活配置)

第三,能为多样场景定制的标注工具箱。针对多样性、快速变化的市场需求,澳鹏量身打造了基于HTML、CSS和JS等脚本语言的动态模板引擎。引擎内置了常见的控件组件及一套预定义标注模板,做到对常见需求的即插即用,并支持完全自定义的脚本编程,足以应对海量标注场景需求。

澳鹏与全球十大汽车企业中的7家及多个一级供应商都有合作,为极其复杂的多模式人工智能项目提供精度要求高达99%的训练数据服务。澳鹏中国也与中国前十大互联网公司等40+个客户有着长期合作,项目覆盖国内及海外。近期,澳鹏正助力某自动驾驶企业构建智能互联平台,为多种车型的座舱智能化、整车智能化提供完整的人工智能解决方案。该项目仍处于实验阶段,从实验到最后的商业化落地要更快更精进,这就需要训练数据能够快速满足算法要求。澳鹏平台内置的各类标注工具,包括3D LiDAR、质检功能和项目流程等,可助力其确保流程根据项目需求不断被优化,从而使双方团队之间的合作非常顺利。我们也期待着这一试点项目能尽快投入生产。

Q4:在您的介绍中我注意到,澳鹏对于标注员的个人隐私是严格保护的。这让我想到今年的3·15晚会曝光的一起人脸识别信息泄露事件,通过获取客户面部信息,判断其性别、年龄甚至此时此刻的心情。包括前段时间”蚂蚁呀嘿” 在抖音刷屏,它背后的AI换脸软件爆红,但7天以后就被下架。人们开始思考人脸信息被滥用甚至侵害他人权益等额外风险,数据隐私问题也开始逐渐暴露出来。除了隐私问题之外,企业在进行人工智能技术部署过程中可能遇到哪些主要风险?

田小鹏:首先是会出现客户体验和业务风险。举一个信用卡公司的例子,他们想要开发一个人工智能程序,用来帮助确定是否要给某个客户发行信用卡。如果这个模型没有正确构建,或者存在一些隐藏着的歧视,那么就会伤害到某些客户群体,从而给公司业务带来不小的损失。

其次,企业将面临品牌声誉风险。麻省理工学院的一份报告中,比较了所有商业面部识别技术,发现其中绝大部分对白人男性的识别率都很高。但是对于一些深色皮肤的女性来说,准确度很低。这会对公司的声誉造成极大的损害。

再者,会存在一定的法律风险。当我们的AI不断进行商业化,可能会面对不同的国家对人权不同的法律和规定。以美国为例,我们知道有一些受管制的领域,例如教育、住房、就业、公共设施等等,在这些领域的公共申请中,不能存在对任何不同的群体,例如性别、种族、肤色、地区等的歧视。在这些领域构建人工智能应用时也是一样。当人工智能程序做决定时,如果没有考虑负责任的人工智能,那么违反当地法律的后果可能会很严重。

Q5:澳鹏提出的“负责任的AI”是否便是基于此?若具体到数据,负责任的AI数据又应该满足哪些要求,您能否详细介绍一下?

田小鹏:“负责任的AI”是澳鹏提出的一个口号,也是我们每天都在践行的标准。我们要告诉计算机真实的世界是什么,而不是带有个人情绪的世界,这就要求我们要做到全面性、完整性、一致性。

负责任的AI数据应该是高质量的,具体应具备以下几点:

第一,无偏见。偏见问题需要在模型构建一开始就保持警惕,否则就可能被引入开发和生产的各个阶段。在数据标注阶段,无论是数据本身还是数据标注者都需要实现多元化。澳鹏的全球100多万名熟练众包资源来自170多个国家和地区,拥有超过235种语言和方言的专业知识。澳鹏为广大众包资源制定了公平、全面的众包道德守则。同时,澳鹏拥有业内领先的一站式人工智能辅助数据标注平台,我们的人性化众包采用偏见最小化框架,提供实时且按需的智能众包标注流程。该框架使用机器学习和统计模型来优化标注作业。在每种使用场景中提高判断的准确性,缩短工作完成时间,并减少数据集偏见。我们确保提供的数据都是真实、准确的,杜绝仿真数据等虚假数据。

第二,安全合规。数据安全和隐私是企业面临的另一项挑战。合格的数据合作伙伴必须得通过严格的安全标准来确保正确处理企业和相关客户的数据。澳鹏对人工智能模型所使用的数据给予最大限度的关注和保护。我们致力于为客户提供最高级别的数据安全标准,符合全球多项严格的数据安全资质认证,包括ISO27001,GDPR,SOC2 Type II,HIPAA等,确保数据来源和渠道正规、安全、合法。

第三,可解释。在我们创建一个 AI 模型时,只有当它能够向客户予以解释、为其理解和信任,才能算创建成功。尽管最先进的 AI 应用很难解释,但我们可以从数据结构、输入、输出等用于开发模型的训练数据中获得一些可解释性。验证和再训练流程则可以让我们更加了解让客户满意的模型预测机制。

第三,正面的社会影响。在进行任何 AI 尝试之前,团队应该首先提出一些与社会影响有关的 AI 伦理问题:我创建的AI模型将会对我的业务、构建模型的人员、最终用户和整个社会产生什么样的影响?当我的模型做出错误决定时又会发生什么?这类问题的考虑将帮助团队构建出对所有利益关系人都具有积极影响的模型。

Q6:感谢田博士的分享。我们看到,澳鹏自进入中国市场后一直发展迅速。下一步,澳鹏中国将有哪些新的战略规划?

田小鹏:我先讲一下澳鹏的优势,再谈谈澳鹏的发展规划。

澳鹏的优势:第一,品牌。澳鹏作为世界领先的人工智能数据服务商,在业界有着高质量的口碑,对客户承诺到底,赢得了很多客户的信任和尊重。第二,平台。我们的人工智能辅助数据标注平台业内领先,支持人工智能部署之旅所涉及的所有深度及广度。第三,资源。立足全球,我们能够为中国的客户提供全世界的众包资源和专业知识。

发展规划方面,澳鹏致力于深耕中国市场。今年2月,澳鹏数据科技(上海)有限公司获得由上海市商委认定为跨国公司地区总部的殊荣,旗下管理中国区研发中心、澳鹏中国交付中心总部(无锡)、澳鹏中国多语种交付中心(大连)等。未来,澳鹏还将在我国西南建立交付中心及港台地区建立营销团队,持续加大在中国市场的投资。

自2017年进入中国,澳鹏便决定在中国大规模发展。澳鹏希望到2025年,员工规模可以超过1万人,累计营收达到10亿美元,真正开始在大中华区的市场,包括大陆、香港、台湾等提供各种各样的高质量AI数据服务,继续向更多的行业不断迈进。

温馨提示:2021年5月20-22日,澳鹏【展位号:B34】将携最新技术产品、解决方案亮相第二届深圳(国际)人工智能展,敬请莅临参观。
 
深圳(国际)人工智能展是全国首个覆盖全产业链的人工智能领域专业展会,自开展以来已吸引来自多个地区政府部门及知名高校科研机构,并得到了行业领军企业的积极响应和广泛参与:华为、腾讯、特斯拉、百度、中国平安、中国银行、小米、字节跳动等过百家国内外知名企业参会参展。第二届深圳(国际)人工智能展以“AI赋能双循环·构建产业新格局”为主题构建一个集人工智能品牌展示、产品推广、技术对接、贸易洽谈、采购交流及供需对接为一体的全产业链聚合的国际化专业大平台。展会设5大展区,分别为人工智能硬件终端展示区,人工智能核心技术展示区,人工智能场景应用展示区,人工智能创新成果展示区,5G+AI智能产品展示区。
联系我们

联系我们

13316818043

邮箱: marketing@saiia.org.cn

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部