AI大模型 – 青瓜传媒

国内的AI大模型们路走偏了吧 !

青瓜传媒 — Thu, 16 May 2024 02:13:37 +0000

在差不多10个月前写的开源大模型LLaMA 2会扮演类似Android的角色么？和AI个体户的崛起：普通人“屁胡”的机会、模式和风险等文章里提出过AI产品落地的的三段论：大模型、系统型超级应用、长尾工具。事隔10个月回头再看，AI发展的走势基本与此相同。其中大模型、长尾工具大家谈论比较多，这次还是专注于系统型超级应用。

核心原因是从各种新闻来看国外在这里已经开始高歌猛进，像一个局点一样，但国内则相对安静，似乎被错过了。可这里才是AI应用的重镇。拿移动互联网作类比，安卓是重要也更基础，但其实可能没有微信重要。

一、什么是系统型超级应用呢？

系统型超级应用这类产品太复杂，实在不好理解，单纯类比操作系统也还是不行，所以这次换个路数，我们拿一个最近受众比较多的App 豆包以及背后的大模型来做类比，在产品形态、业务模式等各方面说明下这类产品。需要的话大家也可以一边操作一边形成直观感受。

豆包APP自身可以看成系统型超级用的面向C端的部分，但系统型超级应用不是豆包APP。

系统是指操作系统，超级应用是指功能没边界。

一边对各种硬件设备进行抽象靠驱动程序接入各种硬件。

一边对应用进行开放，在它之上可以开发Office，PS等各种应用。

两边是被隔离的，做应用的时候不需要关注硬件差异，可以无差别的使用硬件的功能或者计算机的计算能力。

系统型超级应用首先具备这种系统特征。

那什么是超级应用呢？微信如果没有小程序、支付等一系列子功能而是只局限于IM，单是人多那不能被称之为超级应用。超级应用一个特征固然是用户庞大，更关键的是通过二次开放应用商店，在功能上没有边界。

拿豆包这一簇产品做下类比，第一豆包大模型把各种算法完整进行封装，比如识别、语音合成、大模型等，提供了一种AI的通用计算和算法调度能力，这是通用能力部分。其次你会发现它现在至少在一边开放了技能商店（火山方舟/扣子）。APP的具体功能由技能来定义。

这个地儿不适合用“APP”这个词形容可自定义的功能，确实用技能更合适。就好比一个机器人它上一秒钟还不会开直升飞机，但装载新技能后下一秒就可以了。对机器人而言这是一种技能。

另一边如果参照操作系统其实是要投射到不同硬件上，这点豆包这一簇产品现在好像就覆盖了手机和电脑，但这种基于自然语言的应用对端上硬件的资源要求是非常低的，甚至可以放到只有1M内存的设备上。这靠开放平台来覆盖会更适合，下面会说。（其实这里还得区分特征是属于应用的运行时还是属于纯粹的云服务，小程序是微信的运行时技能，但有点复杂不展开了）

我们总结下这种系统型超级应用的构成，基本上是三位一体：

这里面容易被低估的可能是类似火山方舟这个位置的产品（CUDA大概是在这个位置），早期这个位置的产品绝对赔钱，很多时候还得靠降价来反哺它（看发布会豆包大模型把价格订到：0.0008元/千Tokens，这确实是敢下狠手，比我在用的便宜很多很多。干的就是上面说的事）。但其实这里是通路也是标准，培养粘性和链接的地方。看报道，火山方舟在持续升级从模型训练、推理、评测到精调的全方位服务，还有插件以及工具链。打点其实是对的。

基于这个可以预测下面OpenAI的行为，它大概率会补自己直接的C端应用（不是简单套壳）。从GPT-4o的发布来看，OpenAI内部似乎已经统一了认识：往应用方向整。这样磕下去，科技巨头里面估计会多一个，并且大概率会和Google直接碰撞，除非再有首席科学家起义。（有点像修仙，阻人成道了就一定会PK，和喜欢不喜欢没有关系）。

二、系统型超级应用的打法

我为什么看着好像还算了解这类产品呢？

因为我一度曾经带团队设计了完整的这种超级应用以及其打法，那产品和现在的豆包至少有60%的相似度……。（但实在干不动。别的都好说，这类产品太费钱了，再加上上代技术也没那么成熟，最终搞不动了）

这类系统型超级应用几乎必然是To B和To C两线同时着手。特别不单点极致，一般人可别整十死无生。

没有C端的标杆，没人相信你能干好，对于这种基于新技术的新品类也没人知道你在说啥。所以就需要一个豆包这样的C端应用做Pilot。看报道提到豆包APP月活2600万，豆包大模型日均处理1200亿Tokens文本，生成3000万张图片。这是很可怕的数字，智能音箱峰值的时候，每年出货也就只有近4000万台，活跃更是远逊（有的不足销量的10分之1）。（当年我们的C端产品叫:TA来了，说实话我觉得比豆包还好听一些，但数实在不行）

而为了把这种能力投射到更多的设备里面就必然需要构建开放平台，既输出能力也负责管理各种技能（应用运行时的技能平台和MaaS形式的输出，前者只在用户量级上来了才有意义）。

还要有一些共同依托的能力，否则没有根基。当年是一堆算法比如声学的（可复制性最差，现在好像还没解决），识别的，NLP的（过去可复制性也很差，现在基于大模型解决了），现在是豆包大模型这样的新一代模型。里面看起来各种算法都打包进去了。

很多人可能没注意的是包括大模型的这套算法核心计算其实在云上，端上要求的计算量极低，主要运行声学算法等。前面提到你甚至可能在一个只有1M内存的终端设备上把这种AI能力集成进去。也就是说这种能力可以下探到语音无屏的开关这类小设备。

这导致这种超级智能应用先天的优势就是多设备投射，进行沉浸式计算。这时候各种设备平权不是以手机为中心。

当前看起来豆包这些新一代超级应用还没去干这个事，确实也没到这个时点，其它所有硬件设备加起来创造的日活的和可能也不如APP的十分之一。

这种系统型超级应用要想干好，基础能力和杀手型的技能都不能缺。

基础能力搞不好有点浮沙筑高台，房子很难盖起来。（大模型还是很给力，一定程度上解决这问题）

技能搞不好有点像要盖大房子但梁不给力，过去智能音箱搞不好核心就这问题。

什么是基础能力呢？

这是领域本身定义的。比如如果是需要面向C端，TTS音色这个看着不重要的就和大模型的内容生成一样重要。GPT-4o在补这个，豆包大模型也在强化这个。

在APP里什么可以成为一个比较Killer的技能呢？

播音乐的这类功能的支撑度总是不够强壮，之前景鲲带着小度在家往教育做垂直应该就是尝试解决这个问题。

当年我们做过类似《Her》的尝试，很有趣的是豆包也选了它。

但新一代模型的效果实在好很多，从端点检测的精度到语音识别再到TTS（音色）再到内容生成。新一代技术比过去流畅太多了。

这里面有个叫《暧昧对象》的技能，真的差不多可以做陪聊天的服务了。（忘记是团队那个产品同学认为最能有用的就是陪聊天，比放音乐有用，这是对的，奈何当年算法不给力，做完连贯性不过关）

这一组算法最终的效果是个乘法问题，每个都0.8最终一乘体验就变0.5分。现在的识别精度，音色的流畅度和大模型的通用内容生成乘在一起应该还能剩下90分以上。如果不是你知道它是人工智能的情境下，已经很难分得清这是人还是AI。

上一波人工智能创业里面，NLP公司心心念念的《Her》真的有人要做出来了，还附赠了和之前尝试但不好使的声音复刻功能（《黑镜》那种男朋友没了，现在看连声音至少能做出一个70分的陪你聊天的他了…）。这比匹配意图偶尔还得扣槽这种土鳖方式的开放式聊天实在是好太多了。

做过这个的可以试试，体验下国内最新进展。

上面我们拿豆包APP以及背后的豆包大模型做例子分解了一下系统型超级应用的特征以及前者商业模式。

但系统型超级应用可不只局限于豆包以及背后大模型所代表的B端、C端，而是有着更宽广深远的空间，更关键的其实是行业。最先能收支平衡的有可能也是行业。

字节跳动这种公司走OpenAI的路没啥问题，但看起来好像所有做大模型的都跑这条路上来了。这就是标题说的国内AI大模型路可能走偏了。类似OpenAI这个地儿恐怕也没那么大容量。从上面分解中也能看出这模式夸张的难度和资源需求。

三、系统型超级应用可复制到更宽的领域么

有两个新闻可以放在一起看：一个是DeepMind发布AlphaFold3，号称为疾病治疗和药物研发开辟全新路径；一个是Xaira公司融了10亿美金。

这是什么呢？这是垂域大模型。（其实我不知道他们细节，也许没想的那么大，但不关键）

显然的Deepmind并没有因为OpenAI乱了阵脚，继续在自己的路上死磕。但很可能收支平衡比OpenAI还快。

因为它真的影响行业，重塑价值创造的过程。很多科学家会因为AlphaFold的调用次数和开放程度而造反，这反衬的正是影响力。那个国内的AI大模型有这种行业影响力。

每一个这种垂域模型不太可能是一个单独的裸的模型，在落地的时候总是要和现实的信息进行连接。

这点上我之前拿Watson举过例子。

虽然沃森不成功，但这种简单架构上已经清楚的表明这是行业的系统型超级应用。

Watson固然是不成功，但真做出来呢？

那是真的会解决医疗行业的根本问题的，比如医疗资源不足的问题。

这才是新质生产力。

想象一下，这些模型一旦达到AlphaGo在围棋里面的程度，那整个行业就要围着这个模型转了。对应行业会发生剧烈重整。

为什么提这个呢？

因为AI行业国内真干大模型的同学的选择好像都挤一块去了。

受OpenAI刺激，很多团队都跑去干类似chatGPT的大模型，然后自己从头搞又特别费劲，所以往往会借助开源。在这个基础上（相对通用的类似chatGPT模型）上包装出行业大模型。好处是瞬间可以出好多，坏处是不解决行业深层次问题，最终很可能变成上波的赚方案的钱，然后收支失衡。（参见：为什么说这些倒腾AI的方式会把自己搞死）

真正的垂域大模型，那怕把法律搞清楚也是有用的（康达的李思川李律，视频号：川哥说法，就和我聊过好几次）。但门槛确实还是太高，直接拿通用大模型上能靠谱么，我不咋看好。可现在看真做垂直的的反倒是不多。

四、垂域大模型和AGI

以前也写过一点这个话题:chatGPT 和AlphaGo下围棋，谁赢？垂域大模型有戏么？，现在仍然维持原来的观点：在专门的领域尤其是价值比较高，有很多专业信息和知识的领域chatGPT这种代表AGI的模型是很难PK掉垂域模型的。

我是靠常识做这个判断，很不权威。

常识是说一部分数据内蕴了各种知识和规则，把这些数据的种类覆盖的越全，这个模型的相应的事能力也就越强大。通用大模型能力再强，没有这部分信息，也会瓮中之脑一样空有智商。何况模型训练过程中总是可以产生很多的Know-How，这会进一步增加差距。

在很长一段时间里可能会是一个通用大模型，上面承载几个类似豆包/火山方舟/豆包大模型这样的超级应用（比如搜索方向也可能出新的超级应用）还有一些垂域大模型共同为不同的系统型超级应用提供引擎。

五、小结

chatGPT属于开局的点，我们把它刨除在外。那AI大模型真正的局点其实是这些系统型超级应用，不是小团队做的辅助工具。那谁在做这东西呢？也可能是我真的不知道，但如果确实没有行业性的，而是都围在了通用模型上，那可能会在AI的局点上缺席了不少东西。那不管对于VC还是真的从业者其实遗憾的事情。（当年傅朱争论过一场，从这个角度看实在是都偏了）

作者：琢磨事

来源公众号：琢磨事

AI大模型在汽车行业应用探索

青瓜传媒 — Wed, 13 Mar 2024 09:33:03 +0000

ChatGPT之类的大模型诞生后，国内的公司基本上分出了两条路线：一条是做自己的AI大模型，另一条是在AI大模型的应用上发力，解决使用场景的问题。

作为高科技工业的代表，汽车行业天然适合AI大模型的使用。这篇文章，就讲述了大模型在汽车行业的探索情况。

一、AI大模型的前世今生

1. 大模型发展概述

人工智能早在1956年就已出现，后面在此基础上又出现了机器学习。在发展过程中，算法层面变得更为丰富。进一步发展，又出现了深度学习，引入了神经网络。基于深度学习，在2021年出现了预训练大模型。2023年ChatGPT的发布，引起了人们更多的关注和更广泛深入的探索。

2. 什么是大模型

到底什么是大模型，大模型大在什么地方？

首先，算法模型不一样，最早是transformer奠定了后续各类大模型的模型基础。其次是海量参数，以前的模型最多只有百万级参数，而现在的大模型常常是亿级、十亿级，甚至百亿级。第三是海量数据，预训练会用到很多的数据，比如ChatGPT完全是基于网上数据去进行预训练。

3.大模型很强大，但仍处于早期发展阶段

大模型能力很强大，真正比较深入的应用还不是很多，整体上还处于早期的阶段，因此在行业应用中会碰到各种问题。

1)成本高

如果去做一个垂类的大模型应用，首先考虑部署，私有或者共有。私有部署需要基础数据标注、训练成本、算力成本、预训练团队成本。在训练完成后，上线使用还会有推理成本。

2)垂类应用难

现在应用较多的还是通用大模型，通过文字输入一些问题，以知识库的形式去回答，一旦聚焦到解决具体行业问题时，经常难以满足一些垂类应用。比如AIGC做一些营销素材的生成，如果嫁接到汽车行业里面去解决一个具体的问题，还是比较难的，中间会需要很多的调整，以及预训练。

3)安全问题

大模型应用时，尤其是知识库，会涉及到各种各样的敏感问题，答案输出也需要考虑是否符合国家相关规范，因此大模型需要解决合规的一些问题。

4)隐私问题

与个人相关，包括法律法规规定的一些敏感数据，一定不能通过通用大模型去输出。

4. 大模型催生“效率革命”，为产业提质增效

经常会有人问，大模型能够创造什么价值？其价值的核心在于效率，为各个产业降本增效起到积极的作用。

1)能力比较强

大模型在专业领域，包括推理能力上比人强很多。

2)效率更“高”

AI大模型，以及衍生出的AI数字员工，能够代替一部分人工的工作，提高效率。

3)场景更“广”

AI大模型的应用场景广泛，比如汽车营、销、服、研、产、供等各个环节，包括智能驾驶、智能座舱等等，各个车企都已经开始实现大模型上车，在车上真正的去使用大模型。

4)应用更“深”

无论是行业级应用，还是具体产生直接价值的应用，大模型+AI将推动全链路的智能化。

二、AI大模型在汽车营、销、服领域的探索

1. 汽车营、销、服业务全景图

在整个营、销、服阶段有很多环节都可以基于AI大模型去进行赋能。我们对这些环节逐一进行了探索和尝试，寻找可以真正落地的场景。

2. 营销：提高内容产出效率，助力线索提升

1)舆情问题智能匹配

在舆情问题发生后，需要质量部门的人员进行识别和判断，再发到研发侧。

可以通过AI大模型去做预判，把每天舆情的问题自动转换成一些匹配，分给对应的质量部门和研发部门。

2)媒介投放

投放广告的时候，需要写关键词，可以通过AI大模型去做拓词，拓展关键词把它放进去。

还可以通过大模型去做标题和素材的生成，批量生成多个标题和对应的落地页素材。

3)AIGC智能生成内容

在车企营销部门会做专门的品牌素材，这些素材创作出来视频以后，需要到对应社交媒体平台去做矩阵式分发。

可以通过AIGC基于这些素材进行二次创作，在分发给销售人员进行分发获取对应的线索。

我们在汽车行业聚焦在小红书训练一个垂直大模型，进行销售内容的二次创作，在新车发布上市、品牌日等场景下做一些内容发布。

还有一些赋能设计师的工作，辅助海报的设计、落地页的图文设计等。

3. 销售：强化销售能力，赋能线索转化

1)AI销售助手

在销售线索跟进时，大模型能进行一些AI洞察，包含线索的一些属性、偏好以及对应的跟进话术策略。在AI销售助手里，将整个话术知识库挂载到大模型上进行训练。

2)AI销售培训对练

AI模拟销售和用户做真实场景的对练培训，可以检验介绍的点有没有到位，如产品功能介绍，以及对应话术有没有说，比如引导试驾。

在AI的培训对练中，模拟过程也可能会拆成几步，如邀约跟进过程的话术，或者出单相关话术和遇到的问题。

3)AI外呼摘要

在AI外呼时，可以通过大模型做外呼摘要的处理，其实是对语音的数据处理，包括对方言的处理，还可以在销售环节中进行探索。

4)AI销售培训师

可以通过数字人的形式去做培训，批量培训销售人员。讲课时的数字人在语音上可以达到逼真的效果。

4. 服务：洞察用户诉求，赋能个性化服务

1)客服知识库

AI大模型可以对客户提问做综合管理，客服人员无需自行探索，使用大模型提供的答案即可给出满意的回答。

2)AI售后诊断

在车联网数据平台上的智能诊断平台，其中有驾驶的数据、电池的数据、信号的数据等，根据对应的问题可以发现规则中没有的诊断问题。

通过大模型，可以把诊断的这些规则形成一个专有知识库。

5.数据：变革取数模式，助力数据管理

1)AI取数（chatBI）

AI取数chatBI，替代了传统BI，目前还存在取数不准的问题。

另外，还可以通过大模型的BI工具去做快速的看板搭建，还可以帮助写SQL。

在未来，可以直接通过语音问答，即可获取到底层数据，改变看数据的场景和取数的交互方式。

2)AI口径管理

在指标管理平台里面，各个指标口径不一致，通过大模型的工具，可以解答指标的口径，同时能告知上下游指标间的关系。助力指标管理。

3)AI元数据管理

通过元数据管理平台，可以赋能上游业务系统去做表的建设，保持元数据的统一规范，同时赋能数仓的建模以及下游模型的搭建。

三、大模型的基建策略

1.碰到的难点

目前大模型建设中遇到的难点主要包括以下几方面：

1)大模型使用场景怎么设定

大模型的使用场景该如何去设定，比如前面讲到的最开始不是一上来就要做小红书这样的垂直大模型，而是要做一个AIGC，在后续交流过程中逐渐发现场景越来越聚焦，最终聚焦到小红书素材生成的场景。

2)基于场景的语料怎么准备和处理

每次大模型训练都可能会涉及到场景和语料，怎么准备怎么处理，并且在准备和处理时，不仅仅是技术人员，还有产品人员、业务人员都要共同参与。

如AI销售培训场景中，进行了3-4轮的改进，耗时两个多月，每准备处理一次，都会想到一些新的处理点，在语料的处理上也不断发现了一些技巧。

3)大模型怎么训练（prompt和微调）

训练包括两种，一种是直接训练和做微调，需要有比较好的平台和算法团队；第二种是轻量级，用prompt做提示词先把场景做好，在需求验证的情况下，对prompt进行调试，在场景和需求固定以后再去做微调和算力调整。

4)大模型的成本怎么评估：训练成本和运行成本

大模型的训练成本，在调研时发现各个厂家大模型有很多是共有token的方式，还有的是私有化部署，需要卡和平台的资源。

另外就是开源，开源的就是卡的资源。在成本上需要充分开绿，项目能不能持续的成本投入很重要，除了训练时的成本，在运行时成本更高。

5)大模型部署：共有VS私有

各个公司的部署方式不同，私有大模型平台成本是非常高的，至少千万级以上，启动这种项目不是小项目，需要业务价值能够承载。

如果仅为探索，可以调用共有大模型API去进行尝试。

如果有对应的算法团队，可以做一些开源模型的尝试，这样场景验证可以有比较好的冷启动。

6)大模型效果怎么评估

大模型的评估包括三个角度，第一个是精准度，第二个是拟人的角度，第三个是提问的关联角度。

在大模型评估时，可能内容人员无法评估，可以借助外部进行，如供应商，评估内容不仅包括技术指标，还有业务指标。

7)是否安全合规

安全合规方面，有的同学可能会使用OpenAI等工具，这在合规上是不允许的，需要尽量避免。

在大厂的模型里面，都具备一些能力针对安全合规的内容进行审核和过滤。

8)业务价值怎么衡量

在业务价值的衡量上有个策略是离钱近容错高，也就是离业务很近，如销售业务容错率比较高，不会因为回答不精准导致很大的问题，但如BI，回答错了影响则会非常严重。另一方面是覆盖范围，覆盖范围广，提效的影响就更大。

2. 建设AI大模型能力的痛点

目前建设大模型主要痛点包括：技术变化快，人才短缺，初始投入大，缺少成熟的工具链，产业链分工尚未成熟，场景落地缺乏经验，以及应用效果难评估等。

3. 如何构建AI大模型基础设施

构建AI大模型的基础设施，可以采用公有云实例的方式，如果有专有云实例的话，可以嫁接一些自己的向量数据库。如果数据不敏感，就用纯公有云的方式。

另外就是私有部署，私有化的大模型是最贵的，基于通用的行业大模型，训练公司自己的垂直大模型，或者进一步训练各个业务场景的大模型，如营销的、销售的、售后的大模型等等。

四、未来的展望

大模型应用落地分为三个阶段，最终带来应用的爆发：

1)人与AI协作

在2023-2024年，这个时候更多的是人和AI的协作，现在AI已经应用于内容生成、文字处理、图片设计等场景中。

2)部分自动化

这一阶段自动化可能会出错，在一些容错高的地方可以先行应用，比如广告的场景、培训的场景等等。

3)全自动化

在全自动化阶段，整个的训练决策，执行的动作，以及整个agent都将实现自动化。

作者：赵松

微信公众号：松果子聊数字化

AI大模型数据争夺战

青瓜传媒 — Tue, 05 Sep 2023 02:05:54 +0000

当前，大模型正处在产业落地前期，高质量的数据，是大模型实现产业化的关键要素。

最近，一项来自Epoch AI Research团队的研究抛出了一个残酷的事实：模型还要继续做大，数据却不够用了。

研究人员预测了2022年至2100年间可用的图像和语言数据总量，并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明：高质量的语言数据存量将在2026年耗尽，低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到2040年，模型的规模增长将放缓。

对数据端的建设该重视起来了。

一、高质量数据成“抢手货”

随着全球新一轮AI热潮来临，大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现，随着模型参数量的增加，模型性能均得到不同程度的提高。

但值得注意的是，通过来自人类反馈的强化学习（RLHF）生成的InstructGPT模型，比100倍参数规模无监督的GPT-3模型效果更好，也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的，那么毫无疑问数据将成为做模型继续做大的主要制约因素，AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示，数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题，大模型有多少能力，往往取决于有什么样的数据。

据赵德丽博士介绍，与文生图大模型相比，做文生视频大模型要难得多，原因就在于视频数据的数量远比不上文本和图像，更不要谈数据的质量了。相应地，目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果，如果当下的趋势继续下去，人类现有的数据库存一定会耗尽，而且高质量的数据会更少。

正因如此，一场数据争夺战正在拉开序幕。

目前，Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件，名为Firefly。自3月份发布以来，Firefly已被用于创建超过10亿张图像，而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月，专注于人工智能的数据库公司Weaviate融资5000万美元，估值达到2亿美元。

仅仅一周后，其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候，另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内，百度智能云近期也升级了大模型数据服务能力，建设了国内首个专业大模型数据标注基地。百度智能云方面表示，目前已经在全国与各地政府合作，共建了10多个数据标注基地。

显然，对数据的争夺才刚刚开始。

二、数据标注再次迎来爆发

AI大模型带来了大量需求，与之相伴的是中国数据标注行业的迅速发展。

招商证券认为，一方面，进入大数据时代后，人们各种行为的电子化、网络化带来海量数据，但产生的数据只有1%能被收集和保存，并且收集的数据中90%是非结构化的数据；另一方面，人工智能的兴起带来模型训练所用结构化数据的巨大需求，数据标注的重要性逐渐突显。

有业内人士认为，预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求，而且这是一个海量的需求，以目前国内几家头部数据标注公司来看，目前产能还不足以满足需求。

艾瑞咨询数据显示，包括数据采集、数据处理（标注）、数据存储、数据挖掘等模块在内的AI基础数据服务市场，将在未来数年内持续增长。

到2025年，国内AI基础数据服务市场的整体规模预计将达到101.1亿元，整体市场增速将达到31.8%（2024-2025年）。

据iResearch数据，2019年我国数据标注市场规模为30.9亿元，预计2025年市场规模突破100亿元，年复合增长率达到14.6%。

随着数据量的不断增长和数据结构的不断变化，数据标注行业涉及的领域也越来越广泛，特别是在自动驾驶、AIGC等领域内，数据标注需求量极大。

作为AI大语言模型高质量回答的基础，数据标注的生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。

其中，数据标注需要识别图像、文本、视频等原始数据，并添加一个或多个标签为机器学习模型指定上下文，帮助其做出准确的预测。

当前，大部分数据标注任务仍然需要人工完成，而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

随着技术的发展，数据标准行业正在成为半人工智能、半人工化的行业。

面对大语言模型动辄上百亿参数的数据质量控制，需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流，让机器去做预处理，人去做深层的基于理解的反馈，以减少人在简单问题上的精力消耗，专注在专业问题上的标注。

业内一般采用主动质检加被动质检的方式，前者靠人为去做质检，后者是靠算法去做一些预识别。

但目前数据标注工具的准确率部分仅百分之几，部分准确率则可以达到80%、90%。机器标注的识别率越高，人工需求就会越少，成本、利润、速度、质量都能更加可控。

随着技术不断发展，未来数据标注行业可能会实现更高的自动化程度，不过应用领域不同，仍然需要一定数量的标注人员来进行标注任务。

三、传统数据标注亟待升级

值得注意的是，在如今火爆的大模型训练浪潮中，传统的数据标注需求，很可能是下降的。

让ChatGPT更具有“人味”的关键——强人工反馈RLHF，带来的是另一种更高要求的数据标注需求。

相关分析显示，在RLHF环节，模型首先在大数据集上进行预训练，再与专业的人工智能训练师进行交互，专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈，给出一个针对回答的分数或者标签。

这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整，最终帮助模型进行强化学习和不断优化。

也就是说，让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型，实现更合乎人类思维逻辑的表达。

但传统数据标注模式很难满足RLHF的需求。

在过去，数据标注公司的主流商业模式以销售工具系统和标注服务为主。一方面，缺少自有数据很少有出售精准数据集的服务。另一方面，人才升级作为一个系统工程，对数据标注公司的考验更高。

在完成这一步后，RLHF训练还涉及到不少事实判断和价值判断。其中，价值判断涉及到公认的”公序良俗”，理论上是更容易拉齐AI认知的部分，事实判断则涉及各行业Know-How。

这往往需要行业专业人士出手，不是传统数据标注员，简单针对词性、图片细节进行标注就能实现的。

也就是说，要跟上新一代AI浪潮，数据标注公司不仅需要在数据层面进行升级，人才的更新换代同样重要。

目前的确已有标注公司开始在内部撰写《人员提升教程》，他们将在接下来重点培训标注人员对“升级后”的标注需求理解，以及回答方式的合规性等。

但是，在专业壁垒非常高的医疗等领域，数据标注仍面临着人才困境。

某数据标注公司运营负责人曾表示，“特别是医疗，有些是普通人经过培训可以标的，有的必须要医疗从业者，这背后的人才招聘难度可想而知。”

但即便困难重重，也不意味着数据标注公司会立马进行一波洗牌——至少，在大模型训练的几个阶段内，初始阶段的半监督学习同样对传统数据标注存在需求。

面对大模型和RLHF的机遇，重现大规模投入似乎在所难免。

有业内人士认为，如果数据标注公司期望在垂直领域做更高层级的数据服务，可能要成立一个全新的产品线。甚至，具备AI研发背景的创始人会是更合适的数据标注创业者。

面对新一代AI浪潮，没有人可以躺着挣钱——这是每一次技术迭代冲击背后，暗中标注好的“价格”。