Forrester Logo
Forrester Linkin
Forrester英文站
Forrester英文站

首页  >  新兴科技洞察  > 用合成数据把计算机视觉模型放入 “黑客帝国”

合成数据
用合成数据把计算机视觉模型放入 “黑客帝国”

Rowan Curran, 分析师 I 2022年08月16日  

得益于人工智能在诸多领域的发展,计算机视觉仍然是连接真实世界与数字世界的重要方法之一(虽然也许不是最重要的)。计算机视觉现在已经不再局限于小众的实施场景与用例,对各种行业和应用都展现出巨大的市场吸引力。然而,尽管有用性已得到证明,但由于真实世界的数据混乱、漏洞百出而且归属于私人,计算机视觉还是受到了限制。不必对此感到惊讶,因为虽然现在每天都在生成海量图片和视频内容,但大部分数据都是不可用的,个中原因可能是数据缺失,错误标记,甚至仅仅出于保护客户隐私的考虑而不公开数据。


为计算机视觉输入合成数据吧。合成数据是一个很宽泛的概念(我的同事 Jeremy Vale 与我合作的一篇即将发表的报告对此有详细阐述和描绘),目前已被广泛用于诸多行业。计算机视觉是使用合成数据最前沿的应用领域之一,用例数量日益增多。觉得合成数据无法在自己的企业中占有一席之地?实际上,如果您的业务流程还能与真人或实物资产互动,那么就应该重新考虑一下这个问题。  


合成数据让计算机视觉更聚焦


目前用来训练机器学习模型的图像和视频数据包不计其数,而且还都是公开可用的,那么合成数据的吸引力在哪里呢?有些企业正在开发更小众的用例,其数据标记需要更复杂而且不断变化,有些企业甚至想一步到位,直接切换成全新的业务线,对这些企业来说,目前的数据包极其不完整,而且效率低下。因此,企业应当使用以编程方式来生成和自定义图像和视频数据的工具,以便满足应对当前挑战的需要。一些典型用例包括:  


  • 预防性维护 企业需要预测列车耦合器何时可能发生故障,对此,唯一的方法是目测。那么,计算机视觉模型是怎么知道列车耦合器何时发生故障的呢?答案是用合成数据包对模型进行训练——该合成数据包在生成时就包含了各种零部件失效场景。目前有很多工具都能用来生成合成数据包,同时通过员工的技术知识来加以验证。  

  • 司机安全 自动驾驶汽车是合成数据在过去十年间相当重要的一种应用。虽然大家都知道,大部分人在驾驶时手是不会离开方向盘的,但合成数据还是在机动车及其相关领开拓了许多新应用。例如,在许多市场上,消费者和监管机构都要求配备车载驾驶员监控。为此生成真实数据的成本高得吓人,主要是容易出错,结果也无法调整,而且缺乏灵活性。合成数据工具使这些公司可以定义对数据的需求,而且考虑所有已知用户场景。

  • 积极的客户互动 企业希望能与客户更好地互动,但建立这种互动关系往往需要理解客户的反应和情绪。把模型训练成能够理解人类面部表情并据此做出决策,这明显涉及到隐私与安全合规,尤其适用于那些政府已经开始监管数字隐私的市场(例如欧盟及其 GDPR)。  

搭建包含合成数据的多元宇宙进行模型训练


实践表明,创建一个合成数据宇宙没那么难。有很多技术都能帮助企业创建用于计算机视觉的合成数据,其中最容易获得的一种是时下流行的商业游戏引擎,如 Unity 或 Unreal。这些平台支持快速生成高度个性化的场景以及互动,也提供高保真度的图形。最重要的是,它们为搭建计算机视觉模型提供了简单灵活的数据标记方法,使数据非常适用于模型训练。对于正要进入更复杂的小众用例市场的企业来说(例如,需要热力学数据或X光数据),可以考虑目前正在迅速形成的一个市场格局,这些厂商的产品中都内置了专业化引擎(如 Sky Engine AI 或 Datagen)。当前几乎所有行业都有机会利用不断扩展的计算机视觉功能来优化业务模型并获得竞争优势,而合成数据则帮助企业打开了计算机视觉的大门。  


若您有任何其他问题,欢迎电邮 china@forrester.com 与我们联系。点击这里解锁更多新兴科技洞察

联系我们


请填写表格,我们将尽快与您取得联系。