深圳纵横集团有限公司
shenzhen zongheng group co,ltd
时间:2023-04-20 信息来源:纵横集团
-------------------------------------------
数据标注博天堂ag的解决方案公司「」近日已完成新一轮战略融资,投资方为全球投资机构plug and play,天使轮投资方辰韬资本继续追投。
本轮融资投资方pnp是全球知名的科技创新生态平台,曾投资paypal、google、lendingclub、dropbox、logitech等企业。恺望数据表示,新一轮融资后,恺望数据也会与pnp进一步合作,探索出海路径,并继续投入到产品迭代升级当中。
人工智能赛道的发展离不开大量人力和数据的哺育,而数据标注产业正是在ai产业链的上游——将大量的数据分类、标注,为ai公司提供经过加工的数据“原材料”。
「恺望数据」正是起家于自动驾驶领域,为车企和自动驾驶公司提供一站式数据博天堂ag的解决方案的公司。恺望数据创始人于旭硕士毕业于法国昂热大学,曾从0到1搭建起字节跳动、、uber等企业数据生产及运营体系。
恺望数据希望能够解决数据标注行业供给不稳定、流程繁杂、工具低效等数据标注行业痛点。
自2022年2月成立后,恺望数据花费一年时间,建起起了一套以“自动化产线 规模化人力”为核心的生产体系。其形态为一个saas平台——相当于一个能够为算法提供稳定、高质量且低价数据供应链的"自动化产线"。而本轮融资完成之际,这一产线也已正式上线。
传统的数据标注行业,是一个人力密集型行业。在传统的数据标注厂商中,除了招募大量标注员外,还有大量的统筹、管理工作。而要做到“自动化产线 规模化人力”,恺望数据主要分为两部分来实现——首先建立了saas平台,拆分成管理和生产两个部分。
在前期的培训、第一道标注、审核等管理环节,以往很大程度都要依靠项目经理来进行统筹、编排,恺望通过建立统一的saas平台和规则,将这一部分数字化。
到了生产环节,恺望的saas平台已经内置了一套类似打车的机制,标注员能够在上面“接单”。值得注意的是,恺望在这一环节还引进了chatgpt相关技术,用以提升数据标注作业流程的管理效率。
事实上,大模型技术的突破也让数据标注厂商迎来一次“产业升级”。创始人于旭对36氪表示,以往在数据标注中,大量数据都需要预标注,也即需要人工手动标注出来,再教会机器。数据厂商也会遇到不同厂商的任务,小的机器学习模型不能太适配的问题。但如今随着技术迭代,尤其是近期的大模型技术突破后,这将能够作为数据标准的基础。
“以前,如果人类用10分力,现在大模型能够贡献6-7分,把通用的数据都标注好,省下来的时间,人工可以重点投入到一些垂类场景的数据种类中。”于旭表示。
比如,近期meta公布了用于图像分割的大模型——这就是自动驾驶中重要的一个标注环节。在以后,大模型可以用于cv(图像)方向的的预筛,到后面更为垂类的数据种类,再由人工来完成。
在上述种种的数字化技术升级下,恺望的“数据标注产线”实现了在持续提升数据生产规模化的同时,减少成本20%-50%。
技术提升也会加速人才培育的门槛。于旭认为,配合自动化产线,数据标注所需要的人才水平也会逐渐走高。从去年开始,恺望数据就推出了人才培训计划,与高职院校进行合作,希望培养有基础标注知识的人才。
在以前,一个零基础的学生,需要经历约为三周的“爬坡期”,背诵相关标注规则。而恺望将chatgpt和规则库进行结合,引进到标注作业平台后,标注员在进行标注时,就能通过对话形式询问gpt助手,标注员再也不必背诵大量的规则,人才培育的“爬坡期”大幅减短。
这也同时解放了项目经理,他们不必同时管理资源、项目、培训等环节,其管理范围也会扩大。“随着ai行业这一轮产业升级,人才梯度会迅速分开,而数据标注领域也将会进入精细化分工阶段。”于旭表示。
从市场需求来看,2022年是自动驾驶行业纷纷进入量产阶段的一年,对数据标准的需求呈现爆发状态,算法迭代快,对每一批数据的质量要求越来越高。于旭表示,成立不到一年,恺望数据已经进入业务快速增长期,当前已经与在自动驾驶领域开展数据合作。
此外,恺望也与字节跳动、、、、辉羲、易控、旷视及等企业建立合作。近期,恺望单月订单已突破千万级别,并中标汽车主机厂长安汽车的数据标注服务。
除了自动驾驶领域外,恺望数据也在探索ai领域的市场机会。在最近半年的ai热潮席卷下,可以预见的是,对产业链上游的数据需求正在爆炸性增长。根据中国信通院,到2035年,全球数据量将达2142 zb(zettabyte,1zb约十万亿亿字节),是2020年数据量的约45倍。随着ai所需的数据量和训练精度也逐渐走高,这对数据标注、算力优化等基础设施服务提供了更高要求。
此前,恺望数据曾于2022年9月宣布获得千万级天使轮战略融资,投资方包括辰韬资本、三一集团和溪山天使汇。