设为首页收藏本站

80后掘金数据闭环,华映“几面之缘”投了数千万

[复制链接]
查看6406 | 回复2 | 2023-12-11 18:35:02 | 显示全部楼层 |阅读模式

泉源:猎云精选;文 / 孙媛

近一年来,数据标注赛道呈现了一些差异。

在企业端,相较年初,相关赛道玩家融资宣发变少了,资源好像变得更理智;在 " 民工 " 端,数据标注员的工资继续走低,在 " 月入不过 5000,单价从 5 毛降到 4 分 " 的收入变化下,好像预示着简朴的数据标注将会被 AI 代替。

投资人 Jerry 说,各人如今已经不单独谈数据标注的概念,而是升级谈更火的数据服务。例如,围绕数据服务新增业务,给大模型公司主动提供数据,大概和大模型公司一起服务于主机厂。

跟随产业发展,不难发现,数据标注的概念和服务内容在升级,玩家们也在复用其原有的管理体系、研发能力等,去办理围绕数据的行业痛点,结合行业变化来渐渐拓宽业务范围。

究竟上,Jerry 所言早有全球数据标注领域的先驱 Scale AI 在践行。

这家估值 73 亿美金独角兽,成立于 2016 年,核心业务就是数据标注,通过快速捕捉 AI 行业趋势推新,已从自动驾驶场景发迹后切入当局、电商、机器人、大模型等场景,提供各类工具、平台和服务。

而在国内,也有这么一家先行者,它仅次于 Scale AI 一年后成立,创办伊始就得到了水木清华校友基金、老鹰基金、天使湾创投等 5 家机构进行天使轮 " 团购 ",随后青锐创投、华映资源、厚资质源、瑞夏投资更是相继押注。

它便是以自动化解法切入 AI 数据标注和数据管理服务的星尘数据。

80 后数据科学家返国创业,以自动化做解法

星尘数据掌舵者,是 80 后数据科学家章磊。

星尘数据创始人兼 CEO 章磊

在海外就职期间,章磊先在华尔街做数据量化,后又去硅谷做自动化投资相关的算法工作。期间,他在华尔街工作期间开辟的底层风控算法曾被美国联邦储备局作为压测尺度,在硅谷开辟过世界首款股权投资机器人。

返国后,章磊第一次创业,是以 CTO 的身份做了一家与自动化投资策略相关的公司,该项目需要通过大量 NLP(天然语言处理)的数据来进行投资决策,当时投资年化已做到 100%。

也正是这次创业,让章磊基于对数据标注的大量需求,与数据堂、龙猫、百度这些数据标注公司打起交道,却不测发现供给侧与需求侧的极大 gap。

他看到,自动化投资需要数据侧和算法侧能够进行深入交流,即数据策略,仅仅按每人每天进行数据标注并不能办理算法工程师的题目。另外,由于标注工具简陋欠好用,标注员产能也不高,既无法满足企业的工期需求,也无法提高标注员的个人收入。

当时在供给侧端,数据标注公司理念还停顿在低认知、低附加性属性的人力外包模式,更多是在赚取人力差,而算法侧本质需求是随时协同迭代,这就导致商汤旷世百度等高认知的早期 AI 公司只能内部自建标注、数据生产的管道。

章磊坦言,虽然从人力或贩卖端来切入,可以对人力进行尺度化的培训操纵上岗,通过职高院校之类的合作来降低人员供给端的成本,但这对于国内数据标注行业来说治标不治本。

当时,他就有一个判定,这种靠人力差价的生意终极会随着自动化技能发展而由于纯粹靠人力而失去成本优势,甚至会亏损。

在低进入、高认知的行业门槛特点下,章磊认为,从长远考虑,自动化才是更优解。

"Autolabeling 本身是一套组合拳,内里有很多细节,譬如对感知决策、大模型的任务所需要的自动化完全不一样,需要有很高的算法认知去用最新的技能来办理题目,而且把它落地产品化,成为可复制的工具链。如今行业内玩家不具备如许的能力,更多是在贩卖端或运营端有一些优势。"

为此,逐鹿数据标注再创业,基于团队的算法以及硅谷被页粳章磊决定 " 从甲方出来办理甲方题目 ",从三方面出发。

一,成立一个算法认知的团队去真正办理行业痛点,具备数据策略专家的能力;二,用工具链去做好数据服务,包罗数据闭环管理的工具、数据标注、项目管理、数据检索等辅助功能,打造云端工厂的概念;三,让数据处理可以极大被自动化,提高到 50% 至 90% 甚至以上,形成一个高度自动化的数据生产管道的终局。

于是,有别于人力服务型数据标注企业,想在国内走出 Scale AI 之路的星尘数据于 2017 年应运而生。

以 AI 全生命周期的数据闭环为基座,把数据代价产品化

从 Scale AI 的发展态势来看,自动化这条路一旦走通,具备领先优势后可以一招鲜占领生态位,但也并欠好走。

算法层面需要根据产品的反馈和用户实际的人因工程来分析进行优化,除了团队要具备能力基因外,还需要以末了实际落地成果来进行验证,譬如其标注的数据策略、工具链的优化、产品形态、算法能不能够跟上等。

星尘的商务和项目团队每次跟客户沟通和 pitch 时,都被要求跟客户认知在同一水平,成为行业的数据策略专家。

" 特别是大模型的公司,由于其数据天生面临着很多不确定性和变化,就需要能够通过数据策略找到各种题目,而且和客户反馈并探讨去优化终极结果,以模型结果为目标去发力,提升客户算法结果。"

已往 6 年,星尘数据在行业从蛮横生长行至盈利爬坡的过程中也没少踩坑,但也正因此,在服务 50 多家车企和自动驾驶公司、履历上千个项目打磨后,在点滴中积累了算法和产品的迭代能力,其自动化标注平台 Rosetta 平台现可提供数百个标注功能,支持 4DBEV、图像、点云、文本、语音、收罗等在内的 100+ 种主流标注场景。

其中,星尘数据的数据闭环办理方案是其 Rosetta3.0 平台的一大亮点。章磊透露,本年年底,星尘数据即将发布全新的 AI 数据管理平台 MorningStar,买通数据落盘、流程编排、数据管理、数据检索、难例发现、数据送标、算法管理、推理管理等机器学习闭环全链路,连续提升算法迭代速率。

在一个完整的数据闭环中,客户可利用星尘数据提供的离线数据包进行底子版模型训练,星尘数据标注系统通过 API 与客户算法系统进行交互,动态感知客户模型结果,基于模型各版本迭代,在履历几次迭代后,不仅沉淀了有效数据,还节流了数据成本。

同时,星尘数据还可以在海量数据中找到真正有代价的数据帮助客户训练模型,并利用自有 Benchmark 数据集评测模型结果。模型上线后,行车数据可用于模型迭代,形成数据闭环。该方案通过买通星尘数据标注系统和客户算法系统,实现主动学习、分批训练和动态发掘有代价数据,从而降低数据标注规模,节流标注成本。

星尘数据 AI 数据管理平台 Morningstar

据悉,具备算法认知和迭代能力的产品(简称技能迭代能力)的客户,譬如自动驾驶感知决策赛道上的 Tier1 自动驾驶公司和造车新势力等头部技能客户,以及大模型企业,每每倾向于自研整个数据闭环的工具链,把一小部分工作通过找供应商来合作。星尘数据通过技能匹配及形成闭环,就能快速达成合作。

而不具备技能迭代能力的传统车厂等腰部技能公司,则非常依赖于供应商去合作组建数据生产线。虽然增量很大,但其理念和合作方式上没 " 整明白 ",导致数据侧和算法侧都没有很好的一个合作方式。

通常情况下,每每技能侧 60 分的车厂想要采购 90 分的供应商,价格又得是行业最低,但数据侧做到 90 分的条件是技能测也要 90 分,不然又跑不动,这就需要星尘去协同打造数据生命周期管理的数据闭环系统,回归业务本质来适配以连续创造营收。

章磊透露,如今星尘数据客户以每年 2 倍增速在发展,重要服务大模型和自动驾驶。感知决策赛道上已服务了 90% 头部自动驾驶企业,AGI 方向的大客户也开始增多,如今已经和多家头部的大模型客户达成合作。

星尘已经与华为在 DataOps 系统方面达成了战略合作,共同服务于感知决策、通用人工智能等领域,为客户提供更加美满的数据闭环工具和服务支持。

率先步入下一阶段,华映跑来领投 A 轮

近一年来,随着数据标注走热,VC 开始寻求标的,恺望数据、曼孚科技、整数智能等赛道玩家陆续官宣融资,星尘数据这个老玩家也在资源助力开始了加速赛。

在 2022 年 5000 万元 A 轮融资中,华映资源则将橄榄枝扔给了章磊。

彼时,华映资源管理合资人章高男在看了行业若干个标的后,作为技能创业身世的投资人,便与同样有着技能背景的章磊一见如故,甚至表现," 这个行业要投就投星尘,要不就不投了。"

在章高男看来,技能足以区别真正的企业家和生意人,企业家懂得如何将技能用于再生产、将盈利用于投资,能目标明白、通过产品化可复制的方式去把这盘棋做大。

于是,在几面之缘之下,基于章高男对人的敏锐判定,华映资源领投了星尘数据 A 轮融资。就在这轮融资中,另有一家 VC 对星尘后续发展助力颇大,那就是小米生态链机构厚资质源。

也正是机构方在管理和战略上的加持,让章磊带领的星尘数据专注于既定路线用技能去办理行业的本质题目,在眼下更具备 " 抗补贴 " 的能力。

章磊坦言,随着数据标注赛道微风渐起,市场愈发激烈,甚至本年形成了以价换市 " 打补贴 " 的特别情况。

" 很多玩家为拿资源去抢占市场,大概是拿了资源被要求更激进去抢市场。但这有两个毛病,一是贴钱后,基于价格压力很难做好服务;二是今后很难跟车厂谈价格。"

在这个过程中,章磊看到,车厂也由于买低入坑,但随后也吃一堑长一智,渐渐转变采购逻辑,客户端的认知度在市场教育后也有所提高。

星尘数据合作的一家车厂就是云云。

据悉,该车厂想本身搭建数据工具链,刚好有数据标注企业免费提供了一款产品,便是为其省了几百万支出。

然而,由于产品中有各种各样的 bug 需要处理,车厂不得已又投入了数百万来改造这款工具来实现真正投产。虽然标注成本纸面上还可以,但由于各种数据出题目导致工期耽误,项目停息又启动,客户对效率降低而导致的隐性成本支出怨声载道。末了,为了保证数据的高效天生,这家车厂还是弃而选择为可用产品付费买单。

" 车厂们渐渐发现,采购零部件那一套不恰当放到软件上。由于零部件有一些性能指标规范,但软件特别是数据相关的产品迭代,不可能用一两个纸面上的指标来评估。星尘跟客户去做技能匹配和长期合作过程当中,会通过赋能团结迭代、建模,实现降本增效。"

随着感知决策以及大模型算法达到了需要不断去以数据为中央迭代算法和模型的临界点,章磊认为数据行业也在迎来一场变革,将出现以下三方面发展态势。

一是纯人力型数据标注公司发展空间缩小,在自动化成本达到了跟人力持平、甚至更便宜的状态后,整领会面临比力大的红海竞争。反向要求企业具备研发自动化标注算法的能力和迭代能力。

二是市场亟需数据代价,其不仅在于数据增值和人类反馈,更在于发现指标跟踪、数据存储、数据检索、算法反馈迭代的工具链。

三是拥有技能迭代、产品迭代能力的公司,要针对客户的痛点去办理题目,才能真正立足。同时,玩家们仅靠数据服务做好还不敷,更需要做好工具链和自动化算法,星尘数据如今正处于这一阶段。

" 我们看到数据服务可能很快会出现一些革命性的产品,大概说已经有一些实行性的结果在头部实行室诞生,可以极大降低数据的成本,快速提高模型跨领域的适配性和鲁棒性,这种技能也是数据行业下一阶段的趋势。"

接下来,章磊表现,公司将从 DataOps 全流程进行技能赋能,通过一站式的 AI 数据管理平台和数据策略服务,以及具有自动化能力的工具链给客户带来团体的代价,提升算法终极结果的上限。

(Jerry 为化名)

回复

使用道具 举报

xcor | 2024-4-16 03:07:28 | 显示全部楼层
回复 支持 反对

使用道具 举报

xcor | 2024-4-16 03:08:33 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则