AI人工智能 – 青瓜传媒

10 款教育 AI 工具用例

青瓜传媒 — Thu, 11 Apr 2024 03:05:59 +0000

人工智能正在教育领域迅速发展，推动形成一个数十亿美元的全球市场。

其快速增长是由于它能够改变教学过程的许多方面，例如创建身临其境的虚拟学习环境，制作“智能内容”，缓解语言障碍，填补学习和教学之间的空白，为每个学生制定专门的计划等等。

许多创新公司正在创建人工智能工具来实现这些结果。今天和大家分享 10 款实用的教育 AI 工具：

1. Course Hero

Course Hero 已成为教育科技领域的头部公司，其主要是通过创新地使用人工智能来提高学术学习和效率。该平台成立于 2006 年，提供人工智能驱动的家庭作业帮助，大大加快了学生们寻找各种学习材料、即时答案和详细解释的过程。其服务支持多种文档类型，包括多项选择题、填空题和开放式问题，并且能够在 30 秒内提供结果。

Course Hero 产品的核心是 AI 课程助手，它利用广泛的 Course Hero 库直接在学生的文档中策划和呈现最相关的信息。此功能不仅为具有挑战性的问题提供即时的、人工智能驱动的答案，而且还通过突出显示和定义学习材料中的关键概念来促进更深入的理解。此外，该平台还匹配练习题和相关材料，以确保学生们全面掌握主题。

学生们可以通过 Course Hero 与经过验证的专家导师联系，其平台提供 24/7 个性化响应的能力。这些导师是由 2,600 多名主题专家组成的全球网络的一部分，他们经过平台严格的审核过程，以确保学生们获得准确和全面的答案。

Course Hero 的 AI 驱动解决方案代表了教育内容个性化和交付方式的进步，其当前已成为其所在市场中学生们寻求使用最新人工智能技术、丰富学习体验的首选资源之一。其服务及功能包括：

人工智能驱动的家庭作业帮助，提供即时答案和解释。
AI 助手策划相关的学习材料信息。
通过 AI 快速解决方案和概念突出显示。
24/7 专家导师支持，提供个性化帮助。
经过严格审核的主题专家全球网络。

2. Gradescope

Gradescope AI 工具使学生能够在提供反馈的同时相互评估，如果没有 AI 技术，这通常是耗时的任务。Gradescope 依靠机器学习（ML）和 AI 的结合来简化评分，从而节省时间和精力。

通过外包这些任务，教师可以专注于更重要的任务。教师可以使用 Gradescope 对纸笔考试和在线作业进行评分，以及能在同一平台而非分散地准备新项目。

以下是 Gradescope 的一些主要功能：

人工智能辅助和手动问题分组
特定学生的时间延长功能
人工智能辅助评分
提高效率和公平性

3. Fetchy

Fetchy 是一个专为教育工作者设计的生成式 AI 平台。它使教育工作者能够充分释放他们的教学潜力。他们通过简化教育工作者面临的无数任务来实现这一目标，包括创建引人入胜的课程、生成时事通讯、制作专业电子邮件等。通过利用人工智能的力量，Fetchy 使教育工作者能够改进他们的教学方法、优化时间管理并做出自信和明智的决策。

Fetchy 专注于定制生成的语言以满足教育工作者的需求。由于不必制定复杂的提示，Fetchy 对教育工作者非常有用。当使用 Fetchy 的定制解决方案时，教育工作者可以根据他们的特定教育要求，获得量身定制的相关输出。

Fetchy 的功能包括：

生成课程计划
从多个镜头/视角查看历史记录
查找数学或科学实验

4. MathGPTPro

MathGPTPro 是一款人工智能驱动的数学导师，允许用户通过照片或文本上传数学问题以获得即时解决方案。它于 2023 年推出，用户分布于 100+ 个国家/地区，其以 90% 的 AP 数学问题准确率脱颖而出，超过了 ChatGPT 的 60%。

MathGPTPro 旨在实现教育民主化，提供可访问、交互式和个性化的学习工具。该平台强调克服教育障碍，促进包容性的实时学习。

该工具的主要功能包括：

在解决数学问题时提供 90% 的准确率，优于标准LLMs
互动辅导
量身定制的个性化教育学习

5. Nuance’s Dragon Speech Recognition

Nuance 位于马萨诸塞州伯灵顿，提供可供学生和教职员工使用的语音识别软件。该公司的 Dragon Speech Recognition 产品每分钟最多可以转录 160 个单词，帮助那些难以书写或打字的学生。该工具还支持用于导航文档的口头命令，这对于有辅助功能要求的学生至关重要。

Dragon 提供了更多功能，包括能够以比打字快三倍的速度口述课程计划、教学大纲、工作表、阅读清单等。它在实现 99% 准确率的同时做到这一点。

以下是 Nuance’s Dragon 的一些主要功能：

支持口头命令的辅助功能
评估学生作业的声音
以 99% 的准确率口述课堂作业

6. Cognii

Cognii 是一家总部位于波士顿的公司，为 K-12 和高等教育机构开发基于 AI 的产品。它还部署在企业培训环境中。

Cognii 的主要 AI 工具之一是其虚拟学习助手，它依靠对话技术帮助学生形成开放格式的回答，并提高批判性思维能力。

除此之外，其虚拟助手还为每个学生提供一对一的辅导和实时反馈：

帮助学生形成开放的回应
提供一对一辅导
为每个学生提供自适应个性化。

7. Century Tech

总部位于伦敦的 Century Tech 公司提供了一个人工智能平台，利用认知神经科学和数据分析为学生构建个性化的学习计划。另一方面，这些个性化计划减少了教师的工作量，使他们能够专注于其他领域。

该人工智能平台还跟踪学生的进度，同时指出学习中的知识差距。然后，它为每个用户提供个人学习建议和反馈。对于教师来说，Century 帮助他们访问新资源，减少计划和评分等单调任务所需的时间。

以下是 Century 的一些主要功能：

加速学习，提高学生参与度
减轻教师的工作量
可操作的数据洞察

8. Carnegie Learning

Carnegie Learning 是一家创新的教育科技和课程解决方案提供商，其通过人工智能和机器学习技术，为高中和大学生提供学习平台。这些平台为数学、识字或世界语言领域提供了解决方案。

该提供商赢得了多个教育奖项，包括 Tech Edvocate Awards 中的“最佳人工智能/机器学习应用程序”。其中一款产品MATHia软件是由卡内基梅隆大学的研究人员创建的。它还提供 Fast ForWord，这是一款帮助学生发展认知技能的阅读和语言软件。

以下是 Carnegie Learning 平台的一些主要功能：

模仿人类导师
为每位学生提供一对一的个性化学习体验
用于管理学生的可操作数据

9. Ivy Chatbot

Ivy 是一套专为大学和学院设计的聊天机器人 AI 工具。他们在大学流程的许多方面提供帮助，例如申请表、注册、学费、截止日期等。Ivy 的另一个独特之处在于它能够通过收集的数据来规划招聘活动。

其人工智能工具可以为学生提供急需的信息，例如有关贷款、奖学金、助学金、学费等重要细节。它能够为每个部门开发专门的聊天机器人，也支持跨部门应用。

以下是 Ivy 的一些主要功能：

实时聊天和短信轻推
Facebook、ERP、CRM 和 SIS 的集成
随着时间的推移，通过与用户的互动变得更加智能

10. Knowji

市场上另一个人工智能教育工具是 Knowji，它是一种利用当前教育研究的视听词汇应用程序。Knowji是为语言学习者设计的，它使用各种方法和概念来帮助学生更快地学习。

该人工智能教育工具跟踪学生的每个单词进度，并可以预测用户何时可能忘记。它通过使用间距重复算法来实现这些能力，使学生能够随着时间的推移更好地学习。

以下是 Knowji 的一些主要功能：

共同核心对齐
多种学习模式
可定制和适应性强
图片和例句

作者：Alex

来源公众号：Edu指南（ID：EduZhiNan）

银行如何构建大语言模型产品？

青瓜传媒 — Wed, 10 Apr 2024 08:52:57 +0000

目前大语言模型（Large language mode，LLM），以下简称LLM，非常火爆，各种基于LLM的产品如雨后春笋般出现。以OpenAI推出的GPT4为代表的LLM产品，为大家展示了LLM在对知识整理、归纳、推理、总结方面强大的能力。

LLM借助于思维链（Chain Of Thought，CoT）技术，可以使LLM生成推理路径，将复杂问题拆解为多个简单步骤分别处理，从而模拟人类思考的过程。

OpenAI近期推出的Sora产品，同样令人震撼，给出一些提示词，Sora便可以根据文本生成一段生动的视频，效果不亚于专业的视频工作室耗费几天做出来的视频。

例如通过提示词: 一段广角视频，一辆拉力车穿过红杉林，出现在树后，在急转弯时向空中喷洒泥土，电影胶片拍摄于35毫米景深。Sora会生成一段高清的10秒左右的视频，非常逼真。大家有兴趣可以使用Sora体验一下。

由此可见LLM在人机对话、知识推理、归纳总结、图片和视频生成上功能确实非常强大，只要我们给定的提示词足够恰当，LLM便能给出我们想要的结果。

很多垂直领域，已经出现了许多LLM产品。本文收集整理了一些，大家有兴趣的可以重点深入了解。一些关于金融领域的LLM产品主要基于金融知识与问答，金融机构可以作为增值服务提供给客户，是一个非常不错的应用场景。

一、银行使用大模型的场景

对于银行而言，LLM产品的应用场景有很多。任何工具的使用，其主要目标是提升客户服务质量，节省企业运营成本，增加企业收益以及提升企业社会效益。概括下来，就是降本增效。

我们知道，银行的主营业务主要是存款业务、贷款业务、外汇与国际业务，支付和结算、投资理财、托管、电子银行以及银行卡业务等。

除此之外，还有清算、缴费、代理发行金融债券、票据贴现、代收代付等业务。很多银行也推出了银行业务相关的信息平台服务，例如招商银行的CBS（Cross-bank Solution for Cash Management，跨银行现金管理平台）。

如果从银行服务的视角来看，针对个人业务和企业业务的服务划分，可以进行如下划分。

个人业务：信用卡、私人银行、个人贷款、储蓄业务、居家生活、投资理财、跨境金融、个人手机与网上银行等。

企业业务：国内业务、跨境金融、投资银行、资产托管、同业金融、企业财富管理、融资租赁、企业手机与网上银行等。

银行利润的主要来源是存贷利差。因此，如何能最大限度减少获客成本，识别优质贷款客户，提升放贷质量，减少银行坏账带来的损失，是大模型产品具有应用价值的场景之一，通过对历史客户数据进行分析，给出相对恰当的授信结果，快速审批，全方位风险管理。

对于银行客户服务水平，也是提升客户满意度非常关键的指标，利用大模型真实地与客户进行对话，并且非常精准地解答用户提出的问题，可以极大降低银行的客服人工成本。目前市面上已经有类型的产品，机器对话的仿真程度已经同真人对话效果相差无几。

大模型也可以为银行的管理者快速提供需要的信息，对经营数据进行分析，理解并快速绘制图表。相比于通过人工以周报的形式向银行管理层呈现数据图表，往往需要大量人工操作数据分析平台进行数据整理，大模型可以快速动态提供数据，为管理层提供决策依据，进而提升银行的管理效率与管理水平。

对于新产品创新，大模型可以通过其超强的计算能力与数据分析，能够快速进行金融计算与建模，根据当前银行的历史产品销售情况，并结合客户画像，结合利率计算、风险评估。给出最优的产品方案。

二、银行构建大模型的方式

根据我们对银行使用大在模型场景的梳理后发现，在大模型还没有出现之前，其实银行的业务已经存在，并且也已经通过数智化的方式对这些业务进行赋能。

例如基于大数据对信贷用户的智能评分与授信，根据用户的使用习惯和画像进行个性化信息或是产品的推荐，客户服务呼叫中心使用的NLP（Natural Language Processing，自然语言处理）、STT（Speech To Text，语言转文本）以及TTS（Text To Speech，文本转语言）。

大模型的出现，可以简单理解为是原有银行人工智能应用的升级，使计算机变得更聪明，产品效果更丝滑，用户体验更完善。

由于篇幅有限，本文主要以客户服务NLP为场景，来讲解银行构建大模型的方式。实现为银行的每位客户建立7×24小时随身专属顾问，降低银行人工客服与专属顾问成本，提升银行智能客户服务水平，增加客户粘性，提升用户满意度与忠诚度。

以消费贷款为例，很多用户收到银行的营销信息时，会遇到这样的问题，短信提醒告知用户有获得了一笔授信额度，利率非常优惠，但当用户实际操作时，却被告知没有额度，或是利率非常高，这样给用户的体验非常差，失去用户信任，当下次用户再收到这样的营销信息时，便很难被吸引，最终导致用户流失。

构建银行客服场景的NLP大模型产品，可以通过以下方式进行。

1. Embedding 初始化

Embedding基本的理念是用一个低维的向量表示一个物体，这个向量可以是一个词，一个商品，或是一个执行的任务等。对于银行智能客服，用户输入的一般是一段文本，如果使用大模型，Embedding的过程，也是Token化的过程。

Token是大模型中常见的交互与表示方式，也是一种计费方式。例如在GPT-4模型中，每1000个token的费用为0.03美元。

对于银行客服产品的大模型而言，将内容Token化也便于从客观的视角评价产品价值。最后可以通过计算实际同用户互动的Token数，来评估银行客户大模型的产品为银行实际带来的价值。

如何将内容Token化，可以按字分隔，也可以按词分隔。例如，用户在向智能客服咨询，“本期信用卡账单应还款是多少？”。

如果按字Token化，则为：“本｜期｜信｜用｜卡｜账｜单｜应｜还｜款｜是｜多｜少｜？”。

如果按词Token化，则为：“本期｜信用卡｜账单｜应｜还款｜是｜多少｜？”。

我们知道，其实句子有上下文，通过上下文的关联，实现语义的表达。如果有足够多的语料，也可以将句子作为Token。

2. Token 标注

将内容Token化之后，需要对Token进一步进行标注。标注的作用是为了增加计算机对于用户语义甚至是情感的理解，提升机器回答用户问题的精准度。

通过对用户内容Token标注，我们可以对用户内容进行实体抽取，用户的情感分析，还可以根据标注的内容，同关系图谱或知识图谱进行关联，发掘更多信息。

假设我们有一个标签集合，集合的内容是 {scop,name,action,amount,type,…}。我们根据标签的集合，以及字典信息，对用户提问“本期信用卡账单应还款是多少”的文本内容做如下标注。

其中，B代表Begin，意味着标注的开始，E代表标注的结束。如果一个词比较长，中间有多个字，可以用多个大写的I表示。横线- 后面的内容是对内容的标注。例如，信用卡，我们认为是一个名称，可以标注为【name】；还款是一个动作，我们可以标注为【action】。

对于传统的银行智能客服机器人，其实这一步完成之后，基本就可以搭建起一个简单的客服机器人，通过对内容配置相应的执行任务，结合相似度计算或是简单的机器学习就可以回答用户问题。

但是在大语言模型，我们还需要进一步对内容进行训练，扩展客服机器人的服务边界，让用户感觉更像是同真人在沟通。同时，在服务用户的同时，还可以像真人客服一样“顺便”为用户推荐些产品。

3. Attention机制

Attention机制，出现在2017年的一篇论文《Attention is All You Need》中，在这篇论文中提出了Transformer的模型架构，并针对机器翻译这种场景做了实验，获得比较好的效果。

早些时候使用Seq2Seq模型，即序列到序列模型，可用于文本翻译，主要原理是：接收的输入是一个（单词、字母、图像特征）序列，输出是另外一个序列。

但是Seq2Seq模型有个不足之处是仅是根据序列进行映射，不考虑上下文，语义，语法，模型效果不是很好。Transformer模型中提出了Self Attention的结构，取代了以往 NLP任务中的 RNN 网络结构。

用户输入在Encoder（编码器）的文本数据，首先会经过Self Attention 层，Self Attention层处理词的时候，不仅会使用这个词本身的信息，也会使用句子中其他词的信息。

Attention机制解决了【Encoder（编码器）-Decoder（解码器）】结构存在的长输入序列问题，其功能可以被描述为将查询和一组键值对映射到输出，其中查询（Q）、键（K）、值（V）和输出（O）都是向量，输出可以通过对查询的值加权来计算。

简单理解，就是先用问题输入Query，检索Key- Value 的记录，找到和问题相似的记录中的Key值，计算相关性的分数，然后对Value Embedding进行加权求和，从而衍生出了Self Attention中的Q、K、V的表示。主要实现步骤如下图所示：

4. 内容安全

银行的大模型产品，在产品形态上，并不等同于闲聊机器人。因为闲聊机器人，为用户提供的服务主要是解决用户“无聊”的场景，而银行客服机器人，在同用户聊天互动的同时，要确保回答结果的精准。

必须给出严谨的结果，否则宁愿不回答。因此对于内容的安全，需要格外关注。确保内容安全，主要可以通过三个方面进行内容安全控制。

用户输入内容进行控制：属于事前控制的一种方式，利用关键词识别，以及语义识别，对用户输入的内容进行安全校验，判断是否存在内容安全风险。如果存在风险，则给出相应的提示，用户的内容不会作为大模型语料库的输入信息。

大模型自身内容处理：属于事中控制的一种方式，用户输入的内容已经进入银行智能客服大模型的引擎当中，大模型可以根据用户输入内容是否属于历史模型构建范围内的知识进行判断，如果无法处理，则明确返回用户无法理解用户内容，需要后续学习改进。

大模型输出结果控制：属于事后控制的一种方式，这时大模型已经根据用户的提问内容给出相应的答案，即将输出给用户，但发现内容存在安全风险。则需要对结果进行过滤，或者重新触发大模型的处理机制，告知大模型这个答案存在内容安全风险，需要重新生成新的结果。

总之，在银行智能客服产品使用大模型时，可以引入CGT(Controlable Text Generation，可控文本生成)来确保内容质量，降低内容安全风险。

5. 效果评测

在作者之前出版的《产品经理知识栈》这本书中，我们给出了对于人工智能效果评价的机制。对于软件工程通用的系统稳定效果，可以通过压力测试获得相应的评测结论。

对于银行智能客服大模型的运行效果，我们可以准备测试数据集，来进行验证，一般而言，测试数据集占整个数据集的20%相对最为合适。通过准确率、精准率与召回率进行评价。

准确率（Accuracy Ratio）：预测【正确的结果】占【总样本】的百分比。即：AR =（TP+TN）÷（TP+FN+FP+TN）
精准率（Precision Ratio）：也称为查准率，针对【预测结果】对所有被预测为正的样本中实际为正的样本的概率。即：PR = TP÷（TP+FP）
召回率（Recall Ratio）：也称为查全率，针对【原样本】在实际为正的样本中被预测为正样本的概率。即：RR = TP ÷（TP+FN）

从公式中我们可以看出，精准率和召回率的分子者为TP，但是分母不同，在实际操作中，想要更高的召回率，精准率就会降低。

为了平衡精准率与召回率的关系，我们使用F1分数来作为指标。即：

F1 = （2×精准率×召回率）÷（精准率+召回率）

三、银行大模型产品实践样例

1. 总体架构

我们可以通过一个简单的架构，实现银行大模型产品的MVP（Minimum Viable Product，最小可行）版本。在银行大模型产品MVP版本中，我们通过银行小程序、银行App或是网上银行的服务，为用户提供智能文本对话服务。

小程序、App和Web作为承载银行大模型智能客服的渠道，通过统一的应用API（Application Programming Interface，应用程序编程接口）完成功能接入，实现客服功能。

内容安全模块，作为接收用户输入内容的第一道安全防线，将一些用户输入的敏感内容或是与银行客服无关的内容进行过滤；后续对大模型的内容输出进行再次识别，防止不当或是敏感内容传递给客户。

银行客服引擎，是用户与银行客服产品的纽带，负责识别客户，连通用户体系，根据用户画像，对用户提问进行提炼，结合用户历史服务数据，生成恰当的Prompt给到大模型，甚至可以利用客服引擎历史积累的数据，作为大模型的学习样本，对大模型进行“蒸馏”以降低部署成本。

用户体系承载着用户基本信息，对用户进行身份认证，根据用户历史的数据，生成用户画像，基于用户和账户体系，建立同银行核心数据的交互。

任务执行则是根据某些场景建立相应的规则和策略，执行相应的任务。例如，用户在智能客服对话框中输入“本期信用卡账单应还款是多少？”，大模型识别为用户意图是查询本期信用卡的账单，则结构化相应的执行参数给到任务执行模块，由任务执行模块到银行核心中，执行相应信息的获取，并将相关内容返回给大模型，由大模型加工处理后，呈现给用户。

2. 案例实践

接下来我们着重对大模型的构建作为产品实践样例。同样以用户同客服咨询“本期信用卡账单”内容为例，我们的基本目标是通过对用户针对询问“本期信用卡账单”不同的提问内容，通过大模型学习，智能客服均可以识别用户意图，给出本期信用卡账单金额的回答结果。

（1）构建学习语料

我们根据用户历史的银行客服问答数据作为大模型的语料输入，在本案例中，我们仅选取了三条数据作为实验数据。

以下源代码给出了如何将用户输入的内容建立同索引的映射关系，并给出了输出结果样例。在实际操作中，语料库的内容非常庞大，打印语料库的功能需要注释掉。

由于本文实验数据非常少，我们选择将语料的内容进行显示输出，便于直观查看，也有利于后期的模型调试。

（2）模型训练

为了简化计算，我们根据收集的主料库中随机选取一条语料进行模型训练。同样我们将机器随机挑选的语料，张量的形状，也进行了打印输出，方便观测运行过程。

（3）定义编码器和解码器

由于本案例实践使用的是非常基础的Seq2Seq模型，编码器和解码器也相对比较简单。包含了嵌入层和RNN（Recurrent Neural Network，循环神经网络）层。

如果语料数据特别庞大，我们可以调整input_size和output_size参数，以适应不同的数据量。另外也可以调整RNN的相关参数，增加模型复杂度和容易，不过这样机器运算的代价也会同步增加。

（4）整合编辑器和解码器

大模型中包含了编辑器和解码器，因此我们需要将两者进行整合，形成一个总模块，便于处理用户输入的序列，并给出相应的结果输出。

（5）定义训练函数

在这个训练模型中，每一个Epoch都会随机选择一个语料进行训练。本文中由于语料稀少，训练模型的训练轮次设置的也不是很多。

实际银行部署过程中，银行的AI服务器非常强大，可以结合海量数据进行训练，从而提升结果的精准度。

（6）结果输出

由于语料数据非常少，因此模型的准确度是并不是很高，在输入一些类似的其他问题，可能会导致回答不准确。

我们的目标是希望用户在输入信用卡账单或是理解推荐之类的问题时，银行智能客服的大模型能给出相应的结果。

在本文实践案例中，我们结合上文的“本期信用卡账单应还款是多少”，作为输入，银行客服大模型会给去【执行账单应还款额查询】策略，从而触发相应的任务机制，从银行核心系统提取用户本期信用卡账单的还款金额数据。

当用户输入是咨询“有什么理财产品”相关，则银行智能客服会去【执行理财产品推荐】，调用银行产品推荐系统，获得相应的理财产品推荐数据返回给用户。

四、总结与展望

本文从当下最流行的大模型应用出发，结合对银行使用大模型场景的方式，给出了基础的银行构建大模型的方式。通过最后银行大模型产品实践样例的搭建，完成了银行大语言模型产品MVP版本的构建。

当然，本文也有不足之处，由于大模型涉及的内容非常多，受于篇幅所限，不能面面俱到。大模型的发展日新月异，本文的内容仅基于已的理论的应用，比较陈旧。

另外，在本文的实践案例中，仅使用了基础的Seq2Seq模型，没有使用到Transformer，也没有用到Attention机制，语料的规模也不够，还不足以称为“大模型”。后期我们会专门针对Transformer进行详细讲解。

由于大模型目前涉及的场景非常多，各种开源的大模型，各种垂直细分领域的大模型产品如雨后春笋般出现。很显然，在银行领域，大模型会成为银行经营新的赋能工具。

大模型在图表理解和金融计算方面能力非常强大，能够解析和解释各类金融图表，包括识别图表类型、理解数据含义、分析趋势和模式；能够进行金融计算和建模，包括利率计算、投资组合优化、风险评估等。

大模型可以对传统银行风险管理、反欺诈、个性化推荐、贷款审批、经营决策等现有的功能进行重构，使这些传统功能焕发新的生机，降低银行经营成本，提升银行运营效率，将会带来质的飞跃，成为银行新的发展动能。

参考文献

[1]王佳亮.产品经理知识栈[M].出版地:人民邮电出版社,2023

[2]黄佳.GPT图解大模型是怎样构建的[M].出版地:人民邮电出版社,2024

[3]蜗牛海胆. (2021). NLP入门系列1：attention和transformer [EB/OL]. https://blog.csdn.net/ahdaizhixu/article/details/119749361

[4]潘小小. (2023). 【经典精读】万字长文解读Transformer模型和Attention机制：attention和transformer [EB/OL]. https://zhuanlan.zhihu.com/p/104393915

作者：王佳亮

来源公众号：佳佳原创

AI直播，前景如何？

青瓜传媒 — Mon, 08 Apr 2024 06:29:06 +0000

AI风口吹到了直播，先吃到红利的不只有卖课的知识付费博主，还有“AI主播”

她们或是外国美女，借助吸引眼球的形象和话题吸粉，然后带货；或是单身女性，输出“心灵鸡汤”，目的要么是带货，要么是吸引男粉转化为付费用户…..

这些“AI主播”、“AI美女”，正通过AI技术而被批量化、模板化复制。

不仅如此，围绕这个产业链，还出现了如卖课、分销等乱象。如今，针对这些乱象，平台已经开始出手整治。

一、抖音出手整治AI虚拟人

近日，“抖音安全中心”官微发布抖音关于不当利用AI生成虚拟人物的治理公告。公告称，近期平台发现，站内仍有不当使用AI技术生成虚拟人物发布内容的账号，平台进行了严厉处置。

针对违规使用AI生成虚拟人物的行为，平台会对违规视频下架，对违规账号进行取消其投稿和营利权限、抹除账号粉丝、封禁账号等处置，并利用模型、技术识别能力等手段，进行长期系统的识别发现和处置。

有关AI生成虚拟人物的违规行为，改公告列出了几个类型，主要包括利用AI生成假外国人、假精英及利用AI生成形象骗互动等三类内容。

抖音此番出手，让人想到此前爆火的“俄罗斯美女”——娜塔莎。

这是账号“娜塔莎进口食品”塑造的一个俄罗斯美女，说自己在中国生活了8年、热爱中国文化、要嫁给中国男人，在吸粉之后，通过带货俄罗斯的相关产品进行变现，其粉丝量一度达到了20多万。

“美女人设+精准话题吸粉+带货变现”的路径，看起来似乎没有问题。然而，该账号之后被曝出其塑造的“俄罗斯美女”形象是通过AI换脸生成，且没有经过授权使用了乌克兰博主、YouTube网红“Olga Loiek”的面容和声音。

如今，该账号已经遭到封禁。

二、被批量打造的“AI美女”

实际上，如今抖音上的AI主播并不少见，尤其是“AI美女”。

研究了这些账号之后，我们发现这些“AI美女”，要么是直接生成虚拟人设，打造单身成熟女性的人设，甚至还有“单身妈妈”、“离婚女性”等，比如“小姨妹”、“梨过，你要么”。

这些账号可以说是批量生成的，模板化、套路化非常明显。

另一种类型则是通过真人主播自身的形象，生成与她形象较为相符的虚拟形象，如“巧克力，小柠檬”。这是一位娱乐主播，目前拥有1000多万粉丝。

其通过AI生成个人的虚拟形象，主要用于短视频，内容是情感类“鸡汤”。如“欺骗一个对你掏心掏肺的男人”、“经常流泪的男人是什么性格呢”等内容，从而达到吸粉、导流的目的。这类内容看起来十分粗糙，而且口型和画面对不上，很明显是通过AI生成的。

可以看到，这两种类型的账号的目标群体都瞄准了男性。

其中，前者会在短视频挂载小黄车，通过带货进行变现，产品也以日常用品和男士用品为主，譬如抖音平台上有50.5万粉丝的AI主播“陈佳丽”，其橱窗商品价格从几元到几十元不等，部分产品销量可达上百万。

后者则主要通过短视频进行吸粉，然后靠直播打赏进行变现。从短视频内容来看，也是精准面向男性，无论是主播的形象和短视频话题都是投其所好。

除了抖音，小红书也同样有一批以AI美女为主角的博主。

这类博主塑造了类似“旅游博主”、“街拍模特”的人设，发布的内容也几乎一致，基本都是都是发布AI生成的美照。比如以街拍为主要内容的博主“cyberAngel”、“往之”，粉丝数量均已突破一万。目前，尚未发现明显的变现渠道，最常见的方式是建群引流。

三、“AI直播”催生的乱象

除了这类批量打造的“AI美女”之外，如今AI的火热风口还催生了卖课、AI代理分销等乱象。

据媒体报道，有商家出售所谓的AI换脸课程，售价29.9元，素材包包含几千张明星照片；还有商家将骗术当做技术出售，还提供人脸定制，定制价格在2000元到上万元不等。

而围绕AI课程的产业链，还形成了分销的灰产。315期间，就有媒体曝光了有关“数字人源头厂商”和“数字人代理”的骗局。

有不法商家利用“数字人产业是时代风口”作为噱头，对外售卖高达十几万元的AI代理服务，宣称“只要付钱成为代理，就能将数字人技术层层分销给下级买家，不需要任何资质审核，还能自己随意定价，零基础小白也能参与，闭着眼睛就能年入百万。”

然而，“AI换脸”不仅涉嫌侵权，而且还因为直播效果不佳、台词重复、表现生硬等，导致直播间频繁被封。

如今，随着平台监管力度的加大，这样的乱象正在进一步遭到整治。新播场在抖音搜索“AI主播课程、“AI直播课程”等关键词，已经搜不到相关卖课内容。

可以看到，风口之下，AI在直播领域的应用催生了不少乱象。实际上，如果能够更好地利用AI技术，不仅能够减少成本，还能为直播带来新的想象空间。

有业内人士表示，从目前来看，AI主播目前的应用还是存在较多问题和挑战，更多是应用于不需要依赖内容输出的场景，比如本地生活赛道的团购直播；或者作为真人主播的“替身”，在无法开播的时间段运作。

四、押注AI直播，前景如何？

实际上，AI直播带货早已经不是什么新鲜事了。

2023年，随着AI技术的逐步成熟，头部直播公司开始大举入局AI直播带货，谦寻就是其中之一。

据报道，谦寻控股很早就已经在AI领域开始布局，旗下的两家子公司谦语智能和羚客就是专门用来研发AI直播带货。

2023年8月9日，在“再定义・直播的生命力-2023AI创新发布会”上，谦寻旗下的谦语智能和羚客分别发布了“AI数字人直播业务”和“一站式AI智能直播综合平台”，其中多个AI数字人都有薇娅的身影。

而不久前，宣布淡出直播电商的头部带货主播辛巴，也称未来两年将去学习AI技术。

头部机构和主播押注AI，正是看到了AI技术与直播结合带来的新想象力。

与此同时，面对广阔的海外市场，AI主播也有更大的发展空间。

如今许多AI研发商都在着力完善相关产品，闪剪智能举办的2024 BocaLive AI数字人智能播控系统在3月21日举行了线上发布会，新上线的AI能够直接帮助商家自动写好外语直播脚本，支持29国语言和丰富的AI配音。

AI主播具有庞大的语言库，可以进行数十种语言的翻译，商家把中文的商品介绍或者直播脚本输入进去，就可以自动转换成英语、法语、德语等多种语言。

据《中国AI数字人市场现状与机会分析,2022》预测，到2026年，我国AI数字人的市场规模将达到102.4亿元。

AI数字人的前景广阔，但是未来会与直播融合到怎样的程度，一切都是未知数。

作者：场妹

来源公众号：新播场（ID：New_bc）

苹果要下场做AI应用商店了

青瓜传媒 — Sun, 07 Apr 2024 02:17:37 +0000

应用商店毫无疑问是移动互联网时代最具代表性的产物，并且这一事物更是完美诠释了何为平台经济。且不提国内市场的各种安卓渠道，仅苹果和谷歌每年就能靠App Store和Google Play Store“躺赚”数十亿美元。“应用商店很能赚钱”如今已是深入人心的概念，也难怪做智能汽车的特斯拉也在琢磨着要搞个车载应用商店。既然智能汽车要能有自己的应用商店，AI-Native（AI原生）应用自然也要有。

日前，知名华尔街咨询机构Melius Research主管Ben Reitzes在接受美国消费者新闻与商业频道（CNBC）的采访时透露，苹果可能会在6月举行的WWDC上推出一个全新的AI应用商店，并且这个应用商店预计会包含来自各大开发商的AI应用，为开发者和用户提供丰富的选择。他认为苹果不但会提供自己的AI服务，而且目前还在与其他公司进行磋商、从而获取更多AI应用，这些则将为其AI应用商店奠定基础。

为了加强说服力，Ben Reitzes特意举了当年乔布斯为推出iTunes商店，如何说服索尼、环球、百代等唱片巨头，从而让后者同意将版权音乐接入流媒体平台，并允许用户以“每首歌99美分”的价格下载。当年，还没有风靡全球的苹果就能说服风雨飘摇中的唱片业，现在如日中天的苹果自然也对尚不明晰商业模式的AI行业有莫大的吸引力。

如果苹果真的搞出了AI应用商店，对于整个AI行业而言或许是件好事。其实目前并不是没有AI应用商店，今年年初OpenAI的GPT Store在上线时，就曾被外界认为是“AI时代的App Store”，其上线当天，用户创建的GPTs就已突破1000个、72小时超过2000个，蜂拥而至的开发者让GPTs只用了几周的时间，就走完了App花费数年才达到的高度。

然而好景不长，短短数周后，GPT Store就被海量的AI交友GPTs淹没，而OpenAI方面则早已明文禁止培养模拟伴侣或其他受监管活动的GPTs。紧接着GPT Store又成为了侵权内容的温床，用户发现其中存在大量涉嫌侵犯版权的GPTs，例如未经授权生成迪士尼和漫威角色内容的“钢铁侠GPT”、“米老鼠GPT”，甚至还有马斯克的数字人GPTs，以及公开宣称绕过内容剽窃检测的GPTs。

最终在3月末，来自The Information的相关报道显示，开发者感觉OpenAI方面已经放弃了GPT Store，甚至这家公司的员工质疑为何要推出这个应用商店。在The Information的报道中，大量AI应用的开发者表现出了对GPT Store的负面情绪，而开发者的痛点，则集中在OpenAI几乎没有为GPT Store提供用户分析工具，也不允许开发者为其应用收费。

事实上，用户分析工具对于开发者而言极为重要，它可以帮助开发者追踪诸如用户满意度、参与度、流失率等数据，还能帮助开发者描绘出用户画像。以至于有相当多的开发者被迫转向Reddit、X等社交平台，来分享、营销自己的GPTs，并获取关于自己GPTs的反馈。就更别提不允许GPTs收费了，这就等于是OpenAI在“白嫖”开发者的创意和劳动成果。

与之相对应的，是App Store无论在最近几年受到了怎样的非议，都必须要承认的一点，是在诞生之初苹果做到了让全世界的开发者在App Store上展现自己的技术与创意，并收获了财富与名望，其中《愤怒的小鸟》开发商Rovio就是最典型的例子。而App Store就是“Business to Developer”的典范，其中苹果为开发者提供了包含了一系列工具和框架的集成开发环境“Xcode”，并解决了支付安全问题的应用内购买和稳定的分成模式。

除此之外，App Store还为开发者提供了宣发平台，借助编辑推荐机制，有能力的开发者可以让全球用户都知道自己的作品。在开发者一直以来难以解决的渠道问题，包括推广、付款和反盗版，都被App Store一一解决后，这就是为什么其奠定了应用商店经济、革新了软件销售模式。

当年的App开发者其实和如今的AI应用开发者没什么区别，大家想要的无非是一个展现才华、并将才华变现的舞台。

开发者此前对GPT Store抱以巨大的热情，也是希望OpenAI能复刻当年苹果App Store的故事。奈何过去三个月的现实，已经证明了OpenAI暂时还不具备运营应用商店的能力。然而开发者希望有一个可靠分发推广平台的需求却并没有消失，所以苹果这时候推出一个AI应用商店可谓是顺势而为。

尽管目前App Store的“苹果税”受到了部分开发者的诟病，是因为这些开发者认为苹果的贡献和索取的回报不成比例。可如今反观AI原生应用，绝大多数产品都还处于赔本赚吆喝的阶段，更没法为开发者贡献正向现金流。既然钱都还没赚到，分钱的事情就只能往后排了。所以只要苹果愿意砸钱推广自己的AI应用商店，并承诺让开发者有钱赚，这个应用商店似乎就没有做不起来的理由。

作者：三易菌

来源公众号：三易生活（ID:IT-3eLife）

AI视频大模型发展史

青瓜传媒 — Sat, 06 Apr 2024 00:15:21 +0000

Sora，OpenAI的人工智能AI生成式视频大模型，在2024年2月15日一经发布，就引发了全球关注，硅谷AI视频论文作者（非Sora）这样评价：相当好，这是毋庸置疑的No.1。

Sora好在哪里？生成式AI视频的发展挑战在哪里？OpenAI的视频模型一定是正确的路线吗？所谓的“世界模型”达成共识了吗？这期视频，我们通过与硅谷一线AI从业人员的采访，深度聊聊生成式AI视频大模型的不同派系发展史，大家的争议和未来路线。

AI生成视频这个题我们其实去年就想做了，因为当时跟很多人聊天，包括跟VC投资人聊的时候，发现其实大家对AI视频模型和ChatGPT这种大语言模型的区别并不是很清楚。但是为啥没做呢，因为在去年年底，市场中做得最好的也就是runway这家公司旗下的Gen1和Gen2两种视频生成视频以及文字生成视频的功能，但我们生成出来的效果… 有点一言难尽。

比如说，我们用runway生成的一个视频，prompt提示词是”super mario walking in a desert”(超级马里奥漫步于沙漠中)，结果出来的视频是这样的：

怎么看怎么像马里奥跳跃在月球上。无论是重力还是摩擦力，物理学在这段视频里好像突然不复存在。

然后我们尝试了另外一个提示词，“A group of people walking down a street at night with umbrellas on the windows of stores.”（雨夜的大街上，一群人走在商铺窗户檐的伞下）这段提示词也是一个投资人Garrio Harrison尝试过的，结果出来的视频，是这样的：

你看这空中漂浮的雨伞，是不是很诡异… 但这已经是去年代表着最领先技术的runway了。之后华人创始人Demi Guo创立的Pika Labs火了一阵，被认为比runway效果稍好一些，但依然受制于3-4秒的长度显示，并且生成的视频仍然存在视频理解逻辑、手部构图等缺陷问题。

所以，在OpenAI发布Sora模型之前，生成式AI视频模型并没有像ChatGPT、Midjourney这样的聊天和文生图应用一样引发全球关注，很大原因就是因为生成视频的技术难度非常高，视频是二维空间+时间，从静态到动态，从平面到不同时间片段下的平面显示出的立体效果，不但需要强大的算法和算力，还需要解决一致性、连贯性、物理合理性、逻辑合理性等等一系列的复杂问题。

所以，生成式视频大模型这个选题，一直都在我们硅谷101的选题单上，但一直拖着没做，想等生成式AI视频模型有一个重大突破的时候，我们再来做这个选题，结果没想到，这么快，这个时刻，就来了。

01 生成式AI视频的ChatGPT时刻？ ‍‍‍

Sora的展示，毫无疑问是吊打此前的runway和pika labs的。

首先，最大的突破之一，很直观的就是：生成视频长度大大的延长了。之前，runway和pika都只能生成出3-4秒的视频，太短了，所以之前能出圈的AI视频作品，就只有一些快节奏的电影预告片，因为其它需要长一些素材的用途根本无法被满足。

而在runway和pika上，如果需要更长的视频，你就需要自己不断提示叠加视频时长，但我们视频后期剪辑师Jacob就发现，这会出现一个大问题。

Jacob，硅谷101视频后期剪辑师：

痛点就是你在不断往后延长的时候，它后面的视频会出现变形，就会导致前后视频画面的不一致，那这段素材就用不了了。

而Sora最新展示的论文和demo中表示，可以根据提示词，直接生成1分钟左右的视频场景。与此同时，Sora会兼顾视频中人物场景的变换以及主题的一致性。这让我们的剪辑师看了之后，也直呼兴奋。

Jacob，硅谷101视频后期剪辑师：

（Sora）其中有一个视频是一个女孩走在东京的街头… 对我来说，这个是很厉害的。所以，就算在视频动态的运动情况下，随着空间的移动和旋转，Sora视频中出现的人物和物体会保持场景一致性的移动。

第三，Sora可以接受视频，图像或提示词作为输入，模型会根据用户的输入来生成视频，比如，公布出demo中的一朵爆开的云。这意味着，Sora模型可以基于静态图像来制作动画，做到在时间上向前或者向后来扩展视频。

第四，Sora可以读取不同的无论是宽屏还是垂直视频、进行采样，也可以根据同一个视频去输出不同尺寸的视频，并且保持风格稳定，比如说这个小海龟的样片。这其实对我们视频后期的帮助是非常大的，现在Youtube和B站等1920*1080p横屏视频，我们需要重新剪成垂直1080*1920的视频来适配抖音和Tiktok等短视频平台，但可以想象，之后也许就能通过Sora一键AI转换，这也是我很期待的功能。

第五，远距离相干性和时间连贯性更强了。此前，AI生成视频有个很大的困难，就是时间的连贯性，但Sora能很好的记住视频中的人和物体，即使被暂时挡住或移出画面，之后再出现的时候也能按照物理逻辑地让视频保持连贯性。比如说Sora公布的这个小狗的视频，当人们走过它，画面被完全挡住，再出现它的时候，它也能自然地继续运动，保持时间和物体的连贯。

第六，Sora模型已经可以简单地模拟世界状态的动作。比如说，画家在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人吃汉堡的时候会留下汉堡上的咬痕。有比较乐观的解读认为，这意味着模型具备了一定的通识能力、能“理解”运动中的物理世界，也能够预测到画面的下一步会发生什么。

因此，以上这几点Sora模型带来的震撼更新，极大地提高了外界对生成式AI视频发展的期待和兴奋值，虽然Sora也会出现一些逻辑错误，比如说猫出现三只爪子，街景中有不符合常规的障碍物，人在跑步机上的方向反了等等，但显然，比起之前的生成视频，无轮是runway还是pika还是谷歌的videopoet，Sora都是绝对的领先者，而更重要的是，OpenAI似乎通过Sora想证明，堆算力堆参数的“大力出奇迹”方式也可以适用到生成式视频上来，并且通过扩散模型和大语言模型的整合，这样的模型新路线，来形成所谓的“世界模型”的基础，而这些观点，也在AI届引发了极大的争议和讨论。

接下来，我们就来试图回顾一下生成式AI大模型的技术发展之路，以及试图解析一下，Sora的模型是怎么运作的，它到底是不是所谓的“世界模型”？

02 扩散模型技术路线: Google Imagen，Runway，Pika Labs

AI生成视频的早期阶段，主要依赖于GAN（生成式对抗网络）和VAE（变分自编码器）这两种模型。但是，这两种方法生成的视频内容相对受限，相对的单一和静态，而且分辨率往往不太行，完全没办法进行商用。所以这两种模型我们就先不讲了哈。

之后，AI生成视频就演变成了两种技术路线，一种是专门用于视频领域的扩散模型，一种则是Transformer模型。我们先来说说扩散模型的路线，跑出来的公司就有Runway和Pika Labs等等。

03‍ 什么是扩散模型？

扩散模型的英文是Diffusion Model。很多人不知道，如今最重要的开源模型Stable Diffusion的原始模型就是由Runway和慕尼黑大学团队一起发布的，而Stable Diffusion本身也是R unway核心产品—视频编辑器Gen-1和Gen-2背后的底层技术基础。

Gen-1模型在2023年2月发布，允许大家通过输入文本或图像，改变原视频的视觉风格，例如将手机拍摄的现实街景变成赛博世界。而在6月，runway发布Gen-2，更近一步能将用户输入的文本提示直接生成为视频。

扩散模型的原理，大家一听这个名字“扩散模型”，就能稍微get到：是通过逐步扩散来生成图像或视频。为了更好的给大家解释模型原理，我们邀请到了之前Meta Make-A-Video模型的论文作者之一、目前在亚马逊AGI团队从事视频生成模型的张宋扬博士来给我们做一个解释。

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

之所以最开始这篇论文之所以用扩散这个名字，是源于一个物理现象，就是说比如说我们把墨水滴到一杯水里面去，墨水它会散开，这个东西叫扩散。这个过程本身物理上是不可逆的，但是我们AI可以学习这么一个过程，把这个过程给逆过来。它类比到图片里面来说，就是一个图片，它是不断加噪声不断加噪声，然后它会变成一个类似于马赛克这样的一个效果。它是一个纯噪声的一张图片。然后我们学习怎么把这个噪点变成一张原始的图片。

我们训练这么样的一个模型，直接去一步完成的话，这个可能会很难，它分成了很多步，比如我分成1000步，比如说我加一点点噪声，它能够还原出去噪声后是什么样子，然后噪声加得比‍较多的时候，我该怎么去用这个模型怎么去预测噪声？就是它分了很多步，然后逐渐地去把这噪声慢慢地去掉，它迭代式地把这个噪声慢慢给去掉。比如说原来是一个水跟墨已经完全混合在一起了，你想办法怎么去预测它，一步一步它如何再变回之前的那一滴墨水的样子。就是它是一个扩散的一个逆过程。

张宋扬博士解释得很形象，扩散模型的核心思想是通过不断地向原始噪声引入随机性，逐步生成逼真的图像或视频。在而这个过程分成了四步：

1）初始化：扩散模型开始于一个随机的噪声图像或视频帧作为初始输入。

2）扩散过程（也被称为前向过程forward process）：扩散过程的目标是让图片变得不清晰，最后变成完全的噪声。

3）反向过程（reverse process，又被称为backward diffusion）：这时候我们会引入“神经网络”，比如说基于卷积神经网络（CNN）的UNet结构，在每个时间步预测“要达到现在这一帧模糊的图像，所添加的噪声”，从而通过去除这种噪声来生成下一帧图像，以此来形成图像的逼真内容。

4）重复步骤：重复上述步骤直到达到所需的生成图像或视频的长度。

以上是 video to video或者是picture to video的生成方式，也是runway Gen1的大概底层技术运行方式。如果是要达到输入提示词来达到text to video，那么就要多加几个步骤。

比如说我们拿谷歌在2022年中旬发布的Imagen模型来举例：我们的提示词是a boy is riding on the Rocket，骑着火箭的男孩。这段提示词会被转换为tokens（标记）并传递给编码器text encoder。谷歌 IMAGEN模型接着用T5-XXL LLM编码器将输入文本编码为嵌入（embeddings）。这些嵌入代表着我们的文本提示词，但是以机器可以理解的方式进行编码。

之后这些“嵌入文本”会被传递给一个图像生成器image generator，这个图像生成器会生成64×64分辨率的低分辨率图像。之后，IMAGEN模型利用超分辨率扩散模型，将图像从64×64升级到256×256，然后再加一层超分辨率扩散模型，最后生成与我们的文本提示紧密结合的 1024×1024 高质量图像。

简单总结来说，在这个过程中，扩散模型从随机噪声图像开始，在去噪过程中使用编码文本来生成高质量图像。

04 扩散模型优劣势

而生成视频为什么要比生成图片困难这么多？

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

它的原理实际上还是一样的，只不过唯一一个区别就是多了一个时间轴。就是刚刚我们说的图片，它是一个2D的，它是高度跟宽度。然后视频它多一个时间轴，它就是一个3D的，它就是高度、宽度还有一个时间。然后它在学习这个扩散的逆过程的过程当中，就是相当于以前是一个2D的逆过程，现在变成一个3D的逆过程，就是这么一个区别。

所以说图片上的存在的问题，比如说像这些生成的人脸它是不是真实啊？那我们如果图片存在这样的问题，我们视频也一样会存在这样的问题。对于视频来说，它有一些它有些独特的一些问题，就比如说刚才像你说的这个画面的主体是不是保持一致的？我觉得目前对于像风景这样的，其实效果都还可以，然后但是如果涉及到人的话，因为人的这些要求可能会更精细，所以说人的难度会更高，这是一个问题。然后还有一个目前的难点，我觉得也是大家都在努力的一个方向，就是怎么把视频变得更长。因为目前来说的话，只生成2秒、3秒、4秒这样的视频，其实远远满足不了现在的应用场景。

扩散模型比起之前的GAN等模型来说，有三个主要的优点：

第一，稳定性：训练过程通常更加稳定，不容易陷入模式崩溃或模式塌陷等问题。

第二，生成图像质量：扩散模型可以生成高质量的图像或视频，尤其是在训练充分的情况下，生成结果通常比较逼真。

第三，无需特定架构：扩散模型不依赖于特定的网络结构，兼容性好，很多不同类型的神经网络都可以拿来用。

然而，扩散模型也有两大主要缺点，包括：

首先，训练成本高：与一些其他生成模型相比，扩散模型的训练可能会比较昂贵，因为它需要在不同噪声程度的情况下学习去燥，需要训练的时间更久。

其次，生成花费的时间更多。因为生成时需要逐步去燥生成图像或视频，而不是一次性地生成整个样本。

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

就是我们其实现在无法生成长的视频一个很重要原因就是，我们的显存是有限的。生成一张图片可能占用一部分的显存，然后你如果生成16张图片，就可能差不多把这显存给占满了。当你需要生成更多张图片的时候，你就得想办法怎么去，既考虑之前已经生成的这些信息，然后再去预测后面该生成什么样的信息。它首先在模型上面就提了一个更高的要求，当然算力上面也是一个问题，就是获取过很多年之后，我们的显存会非常的大，可能我们也就不存在这样的问题了，也是有可能的，但是就目前来说，当下我们是需要一个更好的一个算法，但是如果有更好硬件可能这个问题就不存在。

所以，这注定了目前的视频扩散模型本身可能不是最好的算法，虽然runway和PikaLabs等代表公司一直在优化算法。

我们接下来，聊聊另外一个派别：基于Transformer架构的大语言模型生成视频技术路线。

05 大语言模型生成视频技术路线（VideoPoet）

最后，谷歌在2023年12月底发布了基于大语言模型的生成式AI视频模型VideoPoet，这在当时被视为生成视频领域中，扩散模型之外的另外一种解法和出路。它是这么个原理呢？

大语言模型如何生成视频？

大语言模型生成视频是通过理解视频内容的时间和空间关系来实现的。谷歌的VideoPoet是一个利用大语言模型来生成视频的例子。这个时候，让我们再次请出生成式AI科学家张宋扬博士，来给我们做一个生动的解释。

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

然后大语言模型这个东西，原理上完全不一样，它最一开始是用在文本上面，用在文本上面就是说我预测下一个单词是什么，就比如说“我爱说实话”，然后最后一个“我爱说实”，然后最后一个字是什么？你猜是什么字？然后可能你给的这些前面的字越多，你可能越容易猜到后面。但是如果你给的字比较少，你可能发挥空间会更多，它是这么样一个过程。

然后这个思路带到了视频当中，那就是我们可以学一个图片的词汇，或者说是视频的词汇。就是说我们可以把图片横着切，比如说横着切16刀，竖着切16刀，然后把每一个小方块、小格子当成一个词，然后把它输到这个大语言模型当中，让他们学习。比如说之前你已经有一个很好的一个大语言模型了，然后你去学习怎么大语言模型的这些词跟这些文本的词或者视频的词进行一个交互，它们之间的进行一个关联，是一个什么样的关联？你去学一些这个东西，然后这样的话，我们就可以利用这些大语言模型，让它可以去做一些视频的任务，或者是文本的一些任务。

简单来说，基于大语言模型的Videopoet是这样运作的：

1）输入和理解：首先Videopoet接收文本，声音，图片，深度图，光流图，或者有待编辑的视频作为输入。

2）视频和声音的编码：因为文本天然就是离散的形式，大语言模型自然而然就要求输入和输出必须是离散的特征。然而视频和声音是连续量，为了让大语言模型也能让图片，视频或者声音作为输入和输出，这里Videopoet将视频和声音编码成离散的token。在深度学习中，token是一个非常重要的概念，它是指一组符号或标识符，用于表示一组数据或信息中的一个特定元素。在Videopoet的例子中，通俗一点可以理解成视频的单词和声音的单词。

3）模型训练和内容生成：有了这些Token词汇，就可以根据用户给的输入，像学习文本token那样，训练一个Transformer去学习逐个预测视频的token，模型就会开始生成内容。对于视频生成，这意味着模型需要创建连贯的帧序列，这些帧不仅在视觉上符合逻辑，还要在时间上保持连续性。

4）优化和微调：生成的视频可能需要进一步的优化和微调，以确保质量和连贯性。这可能包括调整颜色、光照和帧之间的过渡等。VideoPoet利用深度学习技术来优化生成的视频，确保它们既符合文本描述，又在视觉上吸引人。

5）输出：最后，生成的视频会被输出，供最终用户观看。

但是，大语言模型生成视频的路线，也是优点和缺点并存的。

06 大语言模型生成视频优劣势

先来说说优点：

1）高度理解能力：基于Transformer架构的大语言模型能够处理和理解大量的数据，包括复杂的文本和图像信息。这使得模型能具有跨模态的理解和生成能力，能够很好学到文本和图片视频不同模态之间关联的能力。这使得它们在将文本描述转换成视频内容时，能够生成更准确和相关的输出。

2）处理长序列数据：由于自注意力机制，Transformer模型特别擅长处理长序列数据，这对于视频生成尤其重要，因为视频本质上是长序列的视觉表示。

3）Transformer的可扩展性：通常来说模型越大，拟合的能力就越强。但当模型大到一定程度时，卷积神经网络性能受模型增大带来的增益会放缓甚至停止，而Transformer仍能持续增长。Transformer在大语言模型已经证明了这一点，如今在图片视频生成这一领域也逐渐崭露头角。

再来说说缺点：

1）资源密集型：用大语言模型生成视频，特别是高质量视频，需要大量的计算资源，因为用大语言模型的路线是将视频编码成token，往往会比一句话甚至一段话的词汇量要大的多，同时，如果一个一个的去预测，会让时间的开销非常大。也就是说，这可能使得Transformer模型的训练和推理过程变得昂贵和时间消耗大。

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

有一个问题我觉得挺本质的，就是transformer它不够快，这个是很本质的一个问题，因为transformer它一个小方块一个小方块地预测，扩散模型直接一张图就出来了，所以transformer肯定会比较慢的。

陈茜，硅谷101视频主理人：

太慢了有一个具象的一个数据吗？就是能慢多少？

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

就比如说我直接出一张图，diffusion比如出一张图就是1，它也需要一些迭代过程。然后比如说我用四步，它就是四步去生成出来，咱就是4。现在目前做得好的话，四步我看有做的效果还是不错的。然后但是你要是用transformer的话，比如说你画16*16的方格，那就是16*16，那就等于256了，就是那个速度。

4是相当于我做去噪迭代了四次。然后transformer的话，它是相当于我去预测一张图片，比如说是16*16的话，我就预测256个词。他们的量纲肯定不一样，但是他们的复杂度你是可以看出来的。就是diffusion模型，它的复杂度是一个常数集。但是transformer的那个复杂度，它实际上是一个宽度x高度，复杂度会不一样。所以说从复杂度角度来说，肯定是扩散模型会更优一些。然后具体我觉得这东西可能你如果是图片越大的话，分辨率越高的话，transformer的问题可能会越大。

Transformer模型的另外一些问题还包括：

2）质量波动：尽管Transformer模型能够生成创造性的视频内容，但输出的质量可能不稳定，特别是对于复杂的或未充分训练的模型。

3）数据依赖性：Transformer模型的性能在很大程度上取决于训练数据的质量和多样性。如果训练数据有限或有偏差，生成的视频可能无法准确反映输入的意图或在多样性上存在限制。

4）理解和逻辑限制：虽然Transformer模型在理解文本和图像内容方面取得了进步，但它们可能仍然难以完全把握复杂的人类情感、幽默或细微的社会文化信号，这可能会影响生成视频的相关性和吸引力。

5）伦理和偏见问题：自动视频生成技术可能会无意中复制或放大训练数据中的偏见，导致伦理问题。

不过说到第五点，我突然想起来最近的这么一个新闻，说谷歌的多模态大模型Gemini中，无论你输入什么人，出来的都是有色人种，包括美国开国元勋，黑人女性版本的教皇，维京人也是有色人种，生成的Elon Musk也是黑人。

这背后的原因可能是谷歌为了更正Transformer架构中的偏见，给加入了AI道德和安全方面的调整指令，结果调过头了，出了这个大乌龙。不过这个事情发生在OpenAI发布了Sora之后，确实又让谷歌被群嘲了一番。

不过，业内人士也指出，以上的这五点问题也不是transformer架构所独有的，目前何生成模型都可能存在这些问题，只是不同模型在不同方向的优劣势稍有不同。

所以，到这里总结一下，扩散模型和Transformer模型生成视频都有不甚令人满意的地方，那么，身为技术最为前沿的公司OpenAI他们是怎么做的呢？诶，也许你猜到了，这两模型各有千秋，我把它们结合在一起，会不会1+1>2呢？于是，Sora，也就是扩散模型和Transformer模型的结合。

07 Sora的扩散+大语言模型：1+1>2？

说实话，目前外界对Sora的细节还是未知的，现在也没有对公众开放，连waitinglit都没有开放，只邀请了业界和设计界的极少数人来使用，产出的视频也在网上都公开了。对于技术，更多是基于OpenAI给出的效果视频的猜测和分析。OpenAI在发布Sora当天给出了一个比较模糊的技术解释，但中间很多技术细节是缺失的。

但我们先从Sora公开的这篇技术解析，来看看OpenAI的扩散+大语言模型技术路线是如何操作的。

Sora在开头就说得很清楚：OpenAI在可变持续时间、分辨率和宽高比的视频和图像上“联合训练文本条件扩散模型”（text-conditional diffusion models）。同时，利用对视频和图像潜在代码的时空补丁（spacetime patches）进行操作的Transformer架构。

所以，Sora模型的生成的步骤包括：

第一步：视频压缩网络

在基于大语言模型的视频生成技术中，我们提到过把视频编码成一个一个离散的token，这里Sora也采用了同样的想法。视频是一个三维的输入（两维空间+一维时间），这里将视频在三维空间中均分成一个一个小的token，被OpenAI称为“时空补丁”（spacetime patches）。

第二步：文本理解

因为Sora有OpenAI文生图模型DALLE3的加持，可以将许多没有文本标注的视频自动进行标注，并用于视频生成的训练。同时因为有GPT的加持，可以将用户的输入扩写成更加详细的描述，使得生成的视频获得更加贴合用户的输入，并且transformer框架能帮助Sora模型更有效地学习和提取特征，获取和理解大量的细节信息，增强模型对未见过数据的泛化能力。

比如说，你输入“一个卡通袋鼠在跳disco”，GPT会帮助联想说，得在迪厅，带个墨镜，穿个花衬衫，灯光闪耀，背后还有一堆各种动物，在一起蹦跶，等等等等来发挥联想能力解释输入的prompt。所以，GPT能展开的解释和细节丰富程度，将会决定Sora生成得有多好。而GPT模型就是OpenAI自家的，不像其它AI视频startup公司需要调用GPT模型，OpenAI给Sora的GPT架构的调取效率和深广度，肯定是最高的，这可能也是为什么Sora会在语义理解上做得更好。

第三步：Diffusion Transformer成像

Sora采用了Diffusion和Transformer结合的方式。

之前我们在基于大语言模型的视频生成技术中提到过Transformer具有较好的可拓展性。意思就是说Transformer的结构会随着模型的增大，效果会越来越好。这一特性并不是所有模型都具备的。比如当模型大到一定程度时，卷积神经网络性能受模型增大带来的增益会放缓甚至停止，而Transformer仍能持续增长。

很多人会注意到，Sora在保持画面物体的稳定性、一致性、画面旋转等等，都表现出稳定的能力，远超runway，Pika，Stable Video等基于Diffusion模型所呈现的视频模型。

还记得我们在说扩散模型的时候也说道：视频生成的挑战在于生成物体的稳定性一致性。这是因为，虽然Diffusion是视频生成技术的主流，但之前的工作一直局限在基于卷积神经网络的结构，并没有发挥出Diffusion全部潜力，而Sora很巧妙的结合了Diffusion和Transformer这两者的优势，让视频生成技术获得了更大的提升。

更深一步说，Sora生成的视频连续性可能是通过Transformer Self- Attention自注意力机制获得的。Sora可以将时间离散化，然后通过自注意力机制理解前后时间线的关系。而自注意力机制的原理就是每个时间点和其他所有时间点产生联系，这是Diffusion Model所不具备的。

目前外界有一些观点猜测，在我们之前说到的扩散模型的第三步骤中，Sora选择将U-Net架构替换成了Transformer架构。这让Diffusion扩散模型作为一个画师开始逆扩散、画画的时候，在消除噪音的过程中，能根据关键词特征值对应的可能性概率，在OpenAI海量的数据库中，找到更贴切的部分，来进行下笔。

我在采访另一位AI从业者的时候，他用了另外一个生动的例子解释这里的区别。他说：“扩散模型预测的是噪音，从某个时间点的画面，减去预测的噪音，得到的就是最原始没有噪音的画面，也就是最终生成的画面。这里更像是雕塑，就像米开朗基罗说的，他只是遵照上帝的旨意将石料上不应该存在的部分去掉，最终他才从中创造出伟大的雕塑作品。而Transformer通过自注意力机制，理解时间线之间的关联，让这尊雕塑从石座上走了下来。”是不是还挺形象的？

最后，Sora的Transformer+Diffusion Model将时空补丁生成图片，然后图片再拼接为视频序列，一段Sora视频就生成了。

说实话，Transformer加扩散模型的方法论并不是OpenAI独创的，在OpenAI发布Sora之前，我们在和张宋扬博士今年一月份采访的时候，他就已经提到说，Transformer加扩散模型的方式已经在行业中开始普遍的被研究了。

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

目前又能看到一些把transformer的模型做到跟diffusion结合，然后效果可能也不差，甚至可能论文里面有些说的可能会更好。所以说这个东西我不确定以后模型会怎么发展，我觉得可能是两者结合的一种方式。就是transformer他们那种，比如说它预测‍下一个视频，有天然的优势，就是它可以预测变成的一些东西。diffusion虽然质量高，但是diffusion目前很多做法还是生成固定帧数的。怎么把两个东西结合在一起，是一个后面会研究的一个过程。

所以，这也解释了为什么OpenAI现在要发布Sora，其实在OpenAI的论坛上，Sora方澄清说，Sora现在并不是一个成熟的产品，所以，它不是已发布的产品，也不公开，没有等候名单，也没有预计的发布日期。

外界有分析认为，Sora还不成熟，OpenAI算力也不一定能承受Sora被公开，同时还有公开之后的假新闻安全和道德问题，所以Sora不一定会很快正式发布，但因为transformer加diffusion已经成为了业内普遍尝试的方向，这个时候，OpenAI需要展示出Sora的能力，来在目前竞争日益白热化的生成式AI视频领域中重声自己行业的领先地位。

而有了OpenAI的验证之后，我们基本可以确定的是，AI视频生成方向会转变到这个新的技术结合。而OpenAI在发表的技术文章中也明确指出，在ChatGPT上的巨量参数“大力出奇迹”的方式，被证明在AI视频生成上。

OpenAI在文章中说，“我们发现，视频模型在大规模训练时表现出许多有趣的涌现功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。

这说明，Sora和GPT3的时候一样，出现了“涌现”emergence，而这意味着，与GPT大语言模型一样，AI视频也需要更多的参数，更多的GPU算力，更多的资金投入。

Scaling，依然是目前生成式AI的绝招，而这可能也意味着，生成式AI视频也许最终也会成为大公司的游戏。

张宋扬博士，Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

我觉得可能更直观的就是相当于你，比如说你一个视频可能存下来是几十个GB，然后可能到大语言模型就得大一千倍了，就得上TB了，就是大概是这么个意思，但是我觉得应该是能看到这样一个趋势的，就是就虽然现在视频的参数量只是在billion级。

但是像图片里面他们之前stable diffusion模型，他们后来出了一个stable diffusion XL，他们也是把模型做大了，然后也带来了一些比较好的一个效果，也不是说比较好的效果，就是他们能做更真实的那图片，然后效果也会更明显一些。我觉得这是一个趋势，就是未来肯定会把参数量做大的，但是说它带来的增益会有多少，也取决于你目前的这个模型的结构以及你的数据量，你的数据是什么样的。

以上是我们对Sora非常初步的分析，再次说明一下，因为Sora非常多技术细节没有公开，所以我们的很多分析也是从外部视角去做的一个猜测，如果有不准确的地方，欢迎大家来纠错，指正和探讨。

作者：陈茜inTheValley

来源公众号：硅谷101（ID:TheValley101）

OpenAI将取代谷歌搜索？

青瓜传媒 — Tue, 02 Apr 2024 05:59:40 +0000

谷歌：我怕了

OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒地的巨响。

今天起，ChatGPT不用注册，就可以直接使用了！

这份愚人节礼物，可太大了。用户都在欢呼，竞品都在颤抖。

不需要登录，就可以直接使用，这意味着什么？

是的，答案就像你想的那样——ChatGPT，从此将成为互联网基础设施。

今天，就是它取代搜索引擎宏伟蓝图的开始。（谷歌真的危了）

从此以后，互联网的样子，从这样：

变成了这样：

就像搜索引擎在2000年后逐渐成为了全世界互联网的大门一样，ChatGPT现在作为全球用户量最大的AI服务，它的无门槛使用，标志着互联网从此真正进入了Gen AI时代。

虽然，这次开放的版本只是GPT-3.5，但仍然大大降低了使用门槛。

此后的ChatGPT将成为一项基础服务，免费，快速，不稀缺。

没想到，OpenAI还未全面开放免注册，网友就一度把ChatGPT搞崩了。

OpenAI官方：让更多人享受AI便利

OpenAI放出了官方介绍——

我们的使命是让更多人能够轻松使用ChatGPT等工具，享受AI带来的便利。

全球超过1亿用户，遍布185个国家，每周都会使用ChatGPT学习新知识、激发创意或解答疑惑。

现在起，你可以直接使用ChatGPT，无需注册。

我们正逐步开放这项服务，目的是让每个对AI感兴趣的人都能轻松体验它的魅力。

你与ChatGPT的互动可能帮助我们优化模型，惠及所有用户。当然，即使不注册账号，你也可以在设置中关闭此项功能。

为了这次体验，我们增加了更多内容安全措施，比如在更多类别中阻止特定提示和内容生成。

注册账号能享受更多好处，如保存和查看聊天记录、分享对话以及开启更多功能，包括语音交流和自定义命令。

如果你对AI的潜力感到好奇，却又不想繁琐注册，那么现在就开始探索ChatGPT吧。

当你输入chatgpt.com，直接就能用上ChatGPT 3.5。

目前，已经有部分网友亲测无需注册用上了ChatGPT。

国内外对手的虎视眈眈，让OpenAI终于破釜沉舟，走了这招。

Gemini 1.5 Pro、Claude 3等核弹相继爆出，OpenAI终于也急了。

网友：冲！

正如之前提到的，热情的网友们一上来就直接把ChatGPT冲到了宕机。

好在OpenAI很快就进行了修复，而且能够参与的人数也正在迅速扩大。

比如刚刚还不能用的小编，就已经用上了。

对此，有人解释道：对于ChatGPT的注册用户来说，可能看了这条信息没有什么感觉，但是，这件事实在是意义重大！

要知道，有许多人并不愿意花费那个时间和精力，来专门注册一个ChatGPT账号。

而现在，OpenAI把门槛降到了无限低，只要能上网，就能用ChatGPT了。

可以预见，谷歌搜索的流量，将迅速涌入ChatGPT。

不过，有一个问题是ChatGPT 3.5训练数据截止到2022年，若是查询最新信息，这些即使数据从哪里来？

同时还有网友在线提问，GPT-4何时能让我们薅一把羊毛？

而老生常谈的问题，依然出现在评论区：Ilya去哪儿了？

更是有网友坐等GPT-5的发布。

谷歌：我怕了

ChatGPT诞生伊始，就不断有人发问：它会不会取代谷歌搜索引擎？

当时，各方对此意见不一。

截止23年11月，一份调查显示ChatGPT的流量仅是谷歌的2%。

但OpenAI今天的举动，让这件事无比接近事实！

谷歌搜索流量进入ChatGPT的情形，将如下图所示——

根据OpenAI的数据，每周有185个国家/地区的超过1亿人使用ChatGPT。

而流量追踪器SimilarWeb发现，ChatGPT在2月大概有16亿访问者，仍然属于全世界访问量最高的AI聊天机器人应用。

而现在的全球互联网用户，已经达到了50亿。

从此，ChatGPT的访问量，有可能完成从16亿到50亿的跃迁。

这一天，很有可能就是谷歌的末日。

「登录墙」的消失，会让大量新用户涌进来。

要知道，世界上其实有很多人，既想用ChatGPT，又不想费那个麻烦去创建账户、每次都要登录。

而比起谷歌，ChatGPT给出的答案无疑更智能，更高效。

如果非要挑一个缺点，就是目前开放的版本有知识截止日期，而谷歌没有。

而且，如今GPT模型的推理成本已经大幅下降了！

ChatGPT正式推出半之后有媒体曝出，当时ChatGPT每天的运行成本在70万美元。

当时甚至有媒体猜测，按照这个数字估算，OpenAI将在一年后倒闭。

但一年之后，OpenAI不但没有因为运行成本太高而倒闭，却反而将ChatGPT作为完全一个无门槛的服务推出。

意味着这一年之内，他们已经通过各种技术和工程手段，将运行GPT-3.5的成本压缩到了一个非常低的程度。

即便让全世界的网友无限制地薅羊毛，OpenAI也不会有任何成本上的压力。

屠龙者终成恶龙

然而，上一个号称要挑战谷歌的AI搜索引擎Perplexity，已经在计划利用广告赚钱了……

最近，Perplexity刚刚获得来自包括Jeff Bezos在内的投资者的7360万美元B轮融资，但紧接着就对外媒表示，自己准备计划开始销售广告。

这个成立一年的搜索引擎由来自Meta和OpenAI的AI研究人员创建，它既使用了OpenAI的GPT模型，也使用了其自有的AI模型。

目前，Perplexity已经拥有超过1000万的月活跃用户，付费模式是每月20美元的订阅。

具体来说，Perplexity利用AI根据网络资源回答用户问题，并在答案中融入视频、图片以及来自合作伙伴如Yelp的数据。此外，它还会在回答中提供源链接，并建议用户可能感兴趣的相关问题。

而这些问题，占到了Perplexity查询的40%。

基于此，品牌方将通过直接影响这些问题的方式，引入原生广告。

也就是，当用户深入某个话题时，Perplexity会同时提供正常的和赞助的答案。

尽管Perplexity的宣传口号是「搜索应当远离广告的影响」，但广告始终是公司的一项重要策略。

正如首席商务官Dmitry Shevelenko所说：「广告始终是我们构建成功企业战略的一部分。」

广告商认为，对于Perplexity的AI搜索引擎而言，原生广告单元是一个高效的选择。

「这种广告形式不会打扰到平台的核心使用流程，」Brainlabs的首席产品官Jeremy Hull表示。

然而，Perplexity还有许多需要向外界证明的地方——成功与否将依赖于平台的用户规模、品牌安全策略、对受众洞察的访问以及目标定位的有效性。

「Perplexity需要吸引足够的用户，才能引起营销人员的关注，」Collective Measures的副总裁Matt Larson指出。

此外，Perplexity还必须确保其赞助问题的相关性，Larson补充道。

显然，品牌方并不希望自己赞助的相关问题出现在不希望关联的搜索查询中。

谷歌搜索引擎死亡，巨人倒塌，一年前谁都无法想象这样的事。

人类科技大爆发一旦来临，奇点就是来得这么快。

参考资料：

https://openai.com/blog/start-using-chatgpt-instantly

作者：新智元

来源公众号：新智元（ID：AI_era）

ChatGPT无需注册就能用了

青瓜传媒 — Tue, 02 Apr 2024 02:03:43 +0000

就在刚刚，OpenAI狠狠地open了一把：

从今天起，ChatGPT打开即用，无需再注册帐号和登录了！

像这样，直接登录网站，然后就可以开启对话：

OpenAI对发布这个“超自由版ChatGPT”的解释是：

每周有1亿人在使用ChatGPT，我们这么做的目的，就是让更多对AI好奇的人都能用上AI。

不过面对OpenAI突如其来的open，很多网友还是觉得难以置信：

人们嘴上说着“今儿是愚人节”（美国时间），然后就去网站看看到底怎么事儿了。

但OpenAI这一次，是真没开玩笑。

01 超自由版ChatGPT

对于这个“超自由版ChatGPT”，需要强调是开放的只有3.5版本，GPT-4的使用还是老方法。

问题是这么直接用，效果有保障吗？

我们这就来实测一番，上题目——|ln(1+x)| 和 |x| 的大小关系。

首先来看下“超自由版ChatGPT”给出的答案：

其次是登录账号之后，ChatGPT所给出的答案：

暂不论结果的对错，从回答的形式上来看，“超自由版ChatGPT”会给出结论并对原因做简单的解释。

而登录账号版本则是会对问题的理解过程做出更详细的说明。

对于二者更多的区别，OpenAI官方也做出了进一步的阐述。

例如“超自由版ChatGPT”会引入额外的内容保护措施，包括在更广泛的类别中阻止提示和生成。

不过无论登录与否，OpenAI坦然承认，ChatGPT仍然会使用对话的内容来训练自家模型。

但用户如果不喜欢，可以在设置中取消这个功能。

具体的操作就是点击页面右下角的“ ？”，然后把开关关掉即可。

当然，OpenAI官方还是鼓励用户们登录账户去体验ChatGPT，因为很多功能在“超自由版ChatGPT”中是没有的，例如保存或分享聊天记录、使用自定义指令等等。

甚至是一些非常基础的功能，像还在alpha阶段的多语言界面、深/浅色模式切换等功能（虽然不排除是OpenAI忘了加），从目前来看，也只有在登录之后才能设置。

虽然OpenAI这次大方的把羊毛主动献上让用户薅，不过网友们似乎并不满足于此：

GPT-4啥时候也这样啊（手动狗头）？

02 OpenAI为什么突然open了？

按照官方的说法，是为了“让更多人触及AIGC”。

我们正在逐步铺开这一功能，目的是让所有对AI有兴趣的人都能接触到它。

说些漂亮话倒也没什么毛病，不过，也不排除是OpenAI发现ChatGPT流量出现下降，想借此挽回一波用户，以及用户互动背后的反馈机制带来的模型迭代。

Similarweb最新统计数据显示，去年12月到今年2月，ChatGPT的月访问量大约在16亿上下。

虽然这三个月有1%左右的增长，但增长率比5月之前已经明显放缓，而且绝对数量与4-5月的巅峰时期相比依旧是差了将近两个亿。

而在ChatGPT流量增速疲软的同时，整个AIGC行业卷到了飞起。

国外有谷歌Gemini的问世、Claude 3的重磅升级，国内模型也在月之暗面旗下Kimi的带动下打起了一场“长文本之战”，最多可阅读的文本量直接达到了一千万字。

与此同时，昆仑万维的天工、MiniMax的海螺等以大模型为基础的各种AI搜索助手也如雨后春笋般涌现。

形式上，大模型的应用方式也变得更加多元，比如Kimi就已经拥有了Chrome插件（虽然非官方）。

贾扬清团队也推出了一款名为Elmo的Chrmoe浏览器AI插件，支持网页/PDF总结，可以分析YouTube视频，而且免费免登录即可使用。

所以，即便ChatGPT依然是AIGC的流量之王，但是在竞争愈加白热化的趋势之下，OpenAI也需要始终保持竞争力，没有用户，没有反馈数据，再优秀的AI模型也会逐渐失去竞争力。

OpenAI，不得不走上这样的Open之路。

而且随着OpenAI这样出招，对于其他大模型玩家，估计又是一波腥风血雨，ChatGPT都联网即用，别的AI大模型，也得拿出更多诚意来吧？

03 One More Thing

除了ChatGPT，OpenAI CEO奥特曼这边也出现了新的动向。

根据美国有关部门最新披露的信息，奥特曼不再拥有或控制OpenAI创业基金（Startup Fund）。

该基金的控制权已移交给了伊恩·海瑟薇 (Ian Hathaway)，自2021年该基金成立以来，他一直在帮助管理该基金。

现在，该基金的总资产价值已经超过了3.25亿美元，不过OpenAI表示，该基金并不涉及奥特曼个人投资或经济利益。

这种变动，估计也跟OpenAI备受争议的“营利”倾向指责有关，特别是对奥特曼的指责。

虽然OpenAI内讧事件已经结束，但OpenAI内外的理想主义一派和加速主义一派之间，没有得到根本和解。奥特曼交出基金控制权，可能就是加速主义的妥协，毕竟内讧事件中，加速主义一派可算大获全胜了。

参考链接：[1]https://twitter.com/OpenAI/status/1774848681981710821

[2]https://techcrunch.com/2024/04/01/chatgpt-no-longer-requires-an-account-but-theres-a-catch/

[3]https://www.axios.com/2024/04/01/sam-altman-openai-startup-fund

[4]https://twitter.com/jiayq/status/1774897704495390940

作者：关注前沿科技

来源公众号：量子位（ID:QbitAI）

AI医疗的困境与破局

青瓜传媒 — Mon, 01 Apr 2024 06:42:36 +0000

最近，曾被称为“AI医疗第一股”的鹰瞳科技，正式公布了2023年度财务报告。

报告显示，过去一年，鹰瞳科技实现营收2.039亿元，同比增长79.5%；实现毛利润1.25亿元，同比增长124.04%。至于被外界诟病已久的归母净利润，虽然依旧处于亏损状态，为-1.33亿元，但相较以往却也出现了明显的向好收窄趋势。2022年鹰瞳科技的净利润为-1.8亿元。

很明显，鹰瞳科技交出的这份成绩单或许算不上“完美”，但也绝对能给个“优秀”的评价。

不过，或许是受不“完美”业绩的影响，3月27日财报公布后的第二天，鹰瞳科技的股价便中断了最近一段时间的上涨态势，28日整体跌幅达2.02%，收盘价为16.48元/股。

AI医疗第一股”的尴尬：高毛利的生意，常年亏损的现实

老实讲，在新质生产力概念火热的当下，AI医疗绝对算是个长坡厚雪的赛道。

这实际上也是大部分鹰瞳科技的投资者们的共识。

但可惜，由于医疗行业的谨慎特殊，以及受技术的不确定性和大众患者对AI医疗的接受心智不完善等多方面因素影响，这就使得AI医疗的想象力，注定要经过相当长的一段时间才能得到绽放。

期间的投资不确定性，如鱼饮水，冷暖自知。

所以，虽然现在整体市场是把鹰瞳科技当做成长股来看待，但在实际交易的时候，不少投资者们玩的却是“看长做短”，也就是投机做短线。

成长股，重点要看营收增长；而短线投资却是在等待最近的利润扭亏为盈。

先来看营收，2023年同比增长79.46%。

乍一看是不是还不错？但别忘了，2022年受疫情管控等外部因素影响，鹰瞳科技原来的营收高增速不仅被打断了，而且还出现了四年以来的首次下滑，为-1.32%。

在这种情况下，拿鹰瞳科技正常经营的2023年，与经营异常的2022年相比，现在79.46%的营收增速含金量无疑就要大大缩水了。

而且如果跳过2022年，与鹰瞳科技2021年141.61%的营收增速对比来看，2023年的营收表现也确实有点“常规”了。

同理，在毛利率方面，可以发现2023年鹰瞳科技61.35%的毛利率水平，相较于2021年的60.98%，也只能算是恢复了正常水准，整体并不能有力佐证其成长性的爆发。

再来看短线投资者们关注的盈利能力方面。

说来也“心酸”，鹰瞳科技所处的AI医疗和大部分医疗器械行业一样，也是高毛利赛道，然后鹰瞳科技自身也做到了高毛利，但是净利润却常年面临着亏损的现实。

2019年到2023年，鹰瞳科技的归母净利润分别为-0.87亿元、-0.8亿元、-1.43亿元、-1.8亿元和-1.33亿元，五年累计亏损6.23亿元。

其中，2023年，鹰瞳科技的净利率表现为-71.41%，虽然较2022年的-160.78%有所好转，但怎么看怎么与同期61.35%的毛利率不相匹配。

原因很简单，就是被费用端侵蚀挤压了。

财报显示，2023年鹰瞳科技的销售及分销开支为1.006亿元，行政开支为9898万元，两项均表现出逐年上涨的态势。至于研发开支，虽然较2022年的1.256亿元略有下滑，但整体也达到了1.116亿元。

如此一来，鹰瞳科技的三费总额便达到了3.11亿元，远超同期2.04亿元的营收……

研发开支不说，鹰瞳科技毕竟是高科技医疗企业，研发高投入换来的是高技术壁垒，这笔钱从长远来看花得不亏。真正让投资者们难受的是，同样居高不下的销售费用和行政开支。

因为这就说明市场依然没有广泛接受AI医疗，规模化商业落地的难题也没有出现被解决的迹象，所以鹰瞳科技们就只能不断加码营销活动去拉动营收增长。

不过有意思的是，相比于鹰瞳科技过去的淡然，从此次销售费用增长势头不变，研发费用却出现了近5年以来的首次下滑等一系列转变来看，其在商业化或业绩改善方面似乎也终于开始着急了。

其实也不难理解：一是出于对股东和资本投资者们的利益负责。

此前，鹰瞳科技创始人兼CEO张大磊看得“很淡”，其曾对媒体表示“上市无非就是另外一轮融资，整个公司战略方向不会发生什么变化……只想做好产品以及体验，给客户创造更多的价值。”

但事实上，鹰瞳科技作为一家上市公司，终究还是背负着无数投资者和股东们的利益诉求。不管其发力AI医疗赛道想象力有多大，价值变现才是维护资本市场关系的最好方式。所以如何让业绩快速“支棱”起来，无疑就成了当下鹰瞳科技一件紧迫的大事。

二是出于经营压力考虑。

鹰瞳科技在财务层面有一大显著优势是：资产负债率很低，资金储备比较充沛。

截止到2023年末，鹰瞳科技的资产负债率仅为7.55%。其中，负债合计1.271亿元，总资产却达到了16.85亿元，包括“现金及现金等价物”为8.915亿元、“其他金融资产”为1.638亿元等等。

但问题是，坐吃山空终究不是长久之计，规模化商业落地的问题不解决，利润难以实现扭亏，就是地主家最后也会没余粮的。

而老实讲，鹰瞳科技主打的眼科眼底病AI识别或AI影像辅助诊断，最好的商业化路径或许就是进医保。

哪怕对鹰瞳科技来说，纳入医保就意味要放弃一部分利润，经过相关部门的价格“砍一刀”，但从长远来看，其整体也依然是有盈利规模想象力的。

可现在矛盾纠结的一点是，虽然各种互联网医疗政策利好，但谁也说不准鹰瞳科技到底何时才能踏进医保的大门。所以在机会降临前，其就只能顶着亏损压力加码研发，同时又要为股东负责，持续用巨额销售费用来换取营收增长，这也是使得鹰瞳科技被夹在了资本市场和自身理想的中间，左右为难……

近视防控的价值洼地，鹰瞳科技的第二曲线？

天眼查APP显示，从业务划分来看，当前的鹰瞳科技主要有三大营收板块：鹰瞳医疗、鹰瞳健康和鹰瞳眼健康，分别在2023年实现营收约8460万元、4440万元和7500万元，同比增长率分别为200%、6.1%和71.9%。

很明显，以AI视网膜疾病检测等业务为核心的鹰瞳医疗算是其第一增长曲线，第二曲线则是以近视防控、视觉训练相关的眼健康产品业务。

前者的市场想象力，取决于医疗器械集采、医保进度和销售渠道能力等。

而后者则就有意思了，其更偏向于C端消费市场（近视人群），市场潜力是没问题的。

在这方面，即便不说具体的数据，单看身边有多少青少年因熬夜挑灯夜战、学习内卷，或者沉迷于刷短视频、玩游戏而出现视力下降近视等问题，就不难看出近视赛道的市场想象力有多大了。

但尴尬的是，赛道好，并不意味着企业就一定有足够的投资想象力。

近视赛道的价值重心在于解决近视问题，而不是前端的检测和预防问题。

在出现视力下降后，近视眼镜是刚需、激光手术是刚需，以及最近爆火的近视神药（低浓度的阿托品滴眼液）等一系列能够直接解决视力问题的产品，都算是刚需产品。

至于鹰瞳科技瞄准的检测和预防近视，以及视觉训练等前端市场，虽然也有价值，但却是改善型服务，并且对应的低成本替代方案也有很多。

比如，最不花钱的近视预防方案就是，人人都会的眼保健操和改变健康用眼习惯、少熬夜等等。

当然，可能有投资者会说，现在网上免费的减肥健身方案视频那么多，但同样有大把的人愿意花钱去健身房，鹰瞳科技的视觉康复为什么不行呢？

从某种程度上看，鹰瞳科技的近视防控业务确实有点像健身产品、学习类产品的市场逻辑。

不是掏钱就行了，需要用户配合，甚至是长期的配合，而且这东西有点逆人性，没点自驱力，谁能坚持天天去健身，去学习？

对不自律的用户来说，去健身房摸鱼打卡的也不在少数。那么有视力下降患者能不能长期去医院或机构做训练，又或者在家坚持自律使用，这些可能都要画上一个大大的问号。

所以，现在鹰瞳科技想要把近视防控当成第二曲线，确实有想象力，但是如果不能把现在的“改善型”服务，转变成市场刚需或更刚需的场景解决方案，这种想象力天花板可能就不会太高。

那么在这种进医保不确定、近视防控不确定的背景下，鹰瞳科技们又该如何提前实现自我造血？

目前来看，在互联网江湖看来，方向有两个，一个是在落地场景方面，持续渗透下沉市场；另一个是在销售策略方面，转变思路，在购买销售的基础上增添“以租代卖”等多种快速变现的销售形式。

对于前者，除三甲医院外，由于基层医疗更缺医疗资源，所以乡村医疗卫生机构和社区医院才是医疗AI能够发挥最大价值的地方。

当然，现在鹰瞳科技已经在探索下沉市场了，但是整体价格让利可能还不够，如果其能够主动把AI医疗单次检测费用的进一步降低调整，那么鹰瞳科技的规模化下沉可能才会加速呈现出星星之火可以燎原之势。

至于后者，AI医疗商业化落地难的另一大因素在于，医疗机构们投入的成本与医疗AI带来的实用价值不太成正比。因为现在最终做出诊断结果的，其实还是主治医师，而非AI医疗。

如果AI医疗的购买形式转变为更为灵活的租借方式，那么医疗机构和患者们将以较低成本的代价快速完成初步检查需要，这对于医疗资金水平较低的乡村医疗卫生机构和社区医院们尤为关键。

而对于鹰瞳科技们来说，无论是下沉市场还是以租代卖，本质上都是为了最大程度上触达、引流用户。当用户习惯有了，医院也就愿意引进，AI医疗商业化自然就能水到渠成。

总之，现阶段的鹰瞳科技确实是面临着不少挑战。但好一点的是，鹰瞳科技却并没有躺平，而是积极寻找着破局对策。

其实说一千道一万，AI医疗的想象力一直都在，包括市场和政策层也都持看好态度。而且鹰瞳科技的商业化方向是能看到的，当前在做的，也只是在寻找最好的价值落地点。这是领军者的宿命，也是行业未来许诺给鹰瞳科技的最先起飞的时代机遇……

免责声明:本文基于公司法定披露内容和已公开的资料信息，展开评论，但作者不保证该信息资料的完整性、及时性。另：股市有风险，入市需谨慎。文章不构成投资建议，投资与否须自行甄别。

作者：刘致呈

来源公众号：互联网江湖（ID：VIPIT1）

AI手机被吹爆？

青瓜传媒 — Fri, 29 Mar 2024 01:26:00 +0000

在生成式AI布局滞后的苹果，开始加速进场。

连日来，苹果与百度合作传言四起，虽然真相成谜，但仍点燃了大众对于AI手机的畅想。

在手机行业，对于AI手机的观点形成了两派。小米集团总裁、小米品牌总经理卢伟冰直言：“AI是未来，是无处不在的能力，但AI手机是噱头！”

而OPPO高级副总裁、首席产品官，一加创始人刘作虎则针锋相对，他在内部会中反驳称，AI手机不是噱头，而是行业大势所趋，3个月内友商必定都会跟进。

如何才算AI手机，依然存在着巨大的争议。在低迷的手机市场，AI手机真的能激发换机需求吗？

不追赶AI，后院就要起火？

日前，据外媒报道，知情人士透露，苹果将取消长达十年的电动汽车制造努力，汽车团队许多员工将被转移到人工智能部门。这些员工将专注于生成式AI项目。

一方面，苹果放弃造车让人唏嘘；而另一方面，苹果将生成式AI作为接下来重点投入的项目，也让外界看到了手机行业的新方向。

“苹果放弃造车，选择聚焦人工智能是绝对正确的战略选择，时间点也合适。”理想汽车CEO李想认为，人工智能会成为所有设备、服务、应用、交易的最顶层入口，是苹果的必争之地。

李想此言不虚，自2023年ChatGPT诞生以来，AI已经成为手机圈最热门的词汇。与一众互联网企业纷纷入局AI大模型相比，手机厂商们的积极性毫不逊色。

2023年8月，华为发布鸿蒙OS 4，内置AI大模型能力，其手机助手小艺具备摘要功能和文案辅助创作功能，还支持“图片趣玩”功能，对已有图像进行个性化和风格化等二次创作处理。

2023年10月，小米发布了澎湃OS，同样将融入AI大模型能力作为看点。小爱同学支持AI文本创作、拍摄文档读懂文意、随手涂鸦转换为画作、语音输入直接找图等生成式AI能力。

而在2023年11月的vivo开发者大会上，vivo更是将AI大模型卷到了高度，一口气发布了1750亿、1300亿、700亿、70亿、10亿五款不同参数规模的自研AI大模型。vivo副总裁周围在接受采访时表示，vivo大模型现在每年20亿-30亿的投入成本，人才和设备各占一半，人才成本平均税后100万元。“公司对大模型投入定义为高规格投入，目前没有设置上限。”

随后，OPPO也宣布推出自主训练的安第斯大模型，并在OPPO Find X7系列上首次实际端侧应用70亿参数的大模型。

至此，华米Ov这四家主流的国产手机厂商，均已入局和落地大模型。

周鸿祎认为，苹果放弃造车背后，就是为了All in AI，“再不追赶AI，就要后院起火了。”他说。

最近，还传出了百度将为苹果今年即将发布的iPhone16、Mac系统和ios18的国行版提供AI功能的消息。不过接近苹果公司的知情人士予以否认，表示双方尚未达成合作。

AI+手机，就是AI手机？

AI对智能手机体验的提升，已是行业共识，但喊出AI手机的口号，OPPO还是第一家。

春节后开工首日，OPPO创始人兼CEO陈永明就在一封内部信中表示，2024年是AI手机元年。未来五年，AI对手机行业的影响，完全可以比肩当年智能手机替代功能机。他还断言，AI手机也将成为继功能机、智能手机之后，手机行业的第三阶段。

在随后的AI战略发布会上，OPPO专门提出了AI手机的四大特征：算力高效利用能力，真实世界感知能力，自学习能力，创作能力。“未来只有具备这四种能力的手机，才叫AI手机。”OPPO高级副总裁、首席产品官刘作虎说。

在刘作虎的描述中，未来的AI手机会像一个超级助理，真正变成以人为中心。“以前用户想订机票，要打开携程；想订餐，要打开美团，每一个App都是独立的孤岛。而AI手机会把手机中的孤岛App连在一起，通过自学习，越来越聪明，进而提供一站式服务。”

魅族也不甘示弱。就在OPPO发布内部信宣布进入AI手机元年后，魅族宣布决定All in AI，称将停止传统“智能手机”新项目。星纪魅族集团董事长兼CEO沈子瑜更是直言，要“给魅族的智能手机时代一个完美的句号。”

不过，AI手机的叫法，小米集团总裁、小米品牌总经理卢伟冰显然并不同意。

他日前在MWC 2024世界移动通信大会上表示，个人反对将AI概念化，只是在原有手机名称后面加一个AI并无实际意义。AI是一种无处不在的能力，当人们感觉不到AI的存在时，才是AI最大的价值所在。此外，他还表示，如果一个人天天谈论AI，那就说明他没有真正的AI能力。

最近他又在微博上进一步强调：“AI是未来，是无处不在的能力，但AI手机是噱头！”

前魅族高级副总裁李楠近日也直言，给手机的名字上加个AI，没有意义。

AI手机究竟是不是噱头？也引发了广泛讨论。

有行业人士认为，不管是AI+手机，还是AI手机，归根结底还是手机。跟早年手机加了摄像头就叫拍照手机，加了MP3就叫音乐手机一样，只不过AI的加持会让手机的体验越来越好。并不是说一个消除、一个生成就是AI手机，它应该是无处不在的。

OPPO中国区总裁刘波则认为，事物发展总是螺旋式上升和波浪式前进的，AI手机潮流不可阻挡，有一些争议乃至杂音十分正常。现在一切手机体验都可以由AI重构，手机行业卷AI体验，最终受益的是全体用户，这是一件大好事。

一加中国区总裁李杰也表示，AI就是生产力，将给手机行业带来一次变革。利用AI能力来解决某些场景下的用户需求，手机将创造全新的体验，旦用难回。

普及？至少要跨三道坎

实际上，手机厂商们喊出AI手机背后，还是希望能够借助AI手机的概念推动新一轮换机潮。

2023年可谓是全球以及中国智能手机市场惨淡的一年。IDC发布的《全球手机季度跟踪报告》显示，2023年全球智能手机出货量同比下降3.2%，降至11.7亿部，这是十年来最低的全年出货量。在排名前五的厂商中，三星、小米、OPPO均出现了出货量同比下滑。

更为严重的局面是，消费者们越来越不愿意换机了。TechInsight的数据显示，2023年全球智能手机的换机率降至23.5%的最低点，也即换机周期拉长至51个月。

这种态势下，手机厂商们亟需找到新的技术点，以吸引消费者将手中的手机升级换代。而火热的AI无疑提供了一个契机。

不过，当前来看，要推动AI手机的普及，还面临着多方面的挑战。

首先便是AI手机的定义。究竟如何才算真正的AI手机？行业还没有形成共识，没有明确的软硬件标准；

其次是AI应用的落地。与互联网厂商们推出的AI大模型相比，AI手机还没有拿出足够差异化的杀手级应用。要建设AI手机的应用生态，也需要众多App厂商的配合，这是一个需要长期投入的复杂工程；

还有便是商业模式。在AI大模型上投入巨大的人力、财力，这个成本终归会体现到手机售价上，有多大比例的用户愿意为之买单，能否形成良好的商业闭环，仍是未知数。

最近，OPPO联合IDC发布的首个AI手机白皮书中预测，自2024年起，新一代AI手机将大幅增长，带动新一轮换机潮。IDC预计2024年中国市场新一代AI手机出货量为3700万台，2027年将达到1.5亿台且新一代AI手机所占市场份额超过50%。

不过，这个乐观的预测能否如期成为现实，还需要手机厂商、产业链上下游的共同努力。

作者：张俊

来源公众号：新浪科技（ID:techsina）

2024年AIGC行业研究

青瓜传媒 — Wed, 27 Mar 2024 02:19:17 +0000

2024年2月，OpenAI发布其首款视频生成模型Sora，用户仅需输入一段文字即可生成长达一分钟场景切换流畅、细节呈现清晰、情感表达准确的高清视频，与一年前的AI生成视频相比，在各维度均实现了质的提升。这一突破再次将AIGC推向大众视野。AIGC即通过大量数据训练而成的人工智能系统，可根据用户的个性化指令生成文本、音频、图像、代码等内容。

自2022年频频出圈的ChatGPT推出以来，生成式AI在游戏、影视、出版、金融、数字人等多个应用场景中展现出巨大潜力和价值。据不完全统计，2023年全球AIGC产业融资超1900亿元，几乎每个月都有该赛道公司获得融资。例如，2023年6月，Runway获得谷歌、英伟达、Salesforce等投资者的新一轮1.41亿美元的融资；Runway的强劲对手Pika则用短短半年时间，连续完成三轮融资，总融资额达5,500万美元。

本文将基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。

1、产业生态概览

产业生态图谱：以数据板块为代表的基础层有待突破，模型层占核心地位，应用层遍地开花

整体而言，目前AIGC产业生态可划分为三部分：上游基础设施层、中游模型层和下游的应用层。其中，基础设施层包括数据、算力和模型开发训练平台/计算平台等算法基础平台；模型层包括底层通用大模型、中间层模型和开源社区；应用层则在文本、音频、图像、视频四类模态的基础上，发展出了策略生成和跨模态生成，并在金融、数据分析、设计等多个行业实现了商业应用。

图示：AIGC产业生态图谱

基础设施层：数据服务板块成产业新增量，算力和算法产业生态格局较为确定

AIGC对训练数据的体量、所属行业领域、对应垂直业务和颗粒度都有极高的要求。对于预训练大模型而言，多模态的数据集至关重要。此外，为了使训练问答和产出达到预期效果，数据提供方需要保障数据的即时性和有效性。目前，全球规模最大的开源跨模态数据库是LAION-5B，全球首个亿级中文多模态数据集“悟空”则是由华为诺亚方舟实验室开源。

自各类大模型进入大众视野以来，其tokens的大小限制一直困扰着诸多开发者和使用者，以GPT为例，当使用者向其发送命令时，程序会自动将最近几次对话记录（基于对话的字数限制在4096 tokens内）通过prompt组合成最终的问题，并发送给ChatGPT。一旦使用者的对话记忆超过了4096 tokens，那么它就难以将之前的对话内容纳入到逻辑思考范围，这就导致目前GPT在面对比较复杂任务时容易出现AI幻觉。

在此背景下，开发者们不断寻求新的解决方案，向量数据库就是热门解决方案之一。向量数据库的核心概念是将数据转换成向量存储在数据库中；在使用者输入问题时，也将问题转换成向量，然后在数据库中搜索最相似的向量和上下文，最后将文本返回给用户。这样不仅可以大大减少GPT的计算量，从而提高响应速度，更重要的是降低成本、支持多模态数据，并绕过了GPT的tokens限制。随着Weaviate MongoDB等海外向量数据库成为资本关注的对象，国内腾讯、京东等大厂也纷纷在此领域着手布局。

相比于数据板块，国内算力和算法基础领域供给端仍以头部企业为主，初创型企业机会相对较少。但以人工智能计算架构为基础，为应用层提供所需算力服务、数据服务和算法服务的智算中心已成为新型公共算力基础设施之一。

如AIDC OS，是九章云极DataCanvas自主研发的智算专属AI操作系统。同时面向智算中心大规模算力和大中型企业内部智算集群，输出智算资源的纳管、统一调度，智算业务的业务运营支撑，以及AI模型的构建、训练和推理等核心能力。AIDC OS将算力运营方的运维能力从裸算力设备运维提升至AI大模型运维能力，加之对各类异构算力和AI应用的开放兼容，AIDC OS成功实现了算力资产附加价值的有效提升。

模型层：国内市场玩家多集中在底层通用大模型，中间层玩家较少

AIGC底层通用大模型可分为开源和闭源两类。闭源模型一般通过付费的API或者有限的试用接口来访问，国外闭源模型包括OpenAI的GPT模型、谷歌的PaLM-E模型等。国内闭源模型厂商起步较晚，但在多模态交互能力和与智能硬件结合方面的能力提升迅速。如近期李未可科技研发的WAKE-AI大模型，具有文本生成、语言理解、图像识别及视频生成等多模态交互能力，是李未可科技专为未来 AI+终端，定向优化研发的多模态AI大模型平台。目前WAKE-AI大模型暂时针对李未可科技旗下的智能终端——AI眼镜、XR眼镜上使用。未来李未可科技将开放该AI平台，即让更多开发者以低代码或无代码的方式，在各类终端上快速低成本的部署或定制多模态AI。

开源模型采用公开模型的源码与数据集，任何人都可以查看或修改源代码，如Stability AI开源Stable Diffusion，Meta开源Llamax，xAI开源Grok-1，中国智源开源Aquila。比较而言，闭源模型的优势在于前期投入成本低、运行稳定；开源模型则基于私有化部署拥有较高的数据隐私安全保障，并且迭代更新速度较快。目前国内多数大模型开发企业或机构致力于开发跨模态大模型，如腾讯的混元AI和百度的文心大模型，都可进行跨模态生成，但整体尚未普遍形成开源生态。

中间层模型市场玩家大致可分为垂类大模型和中间集成商两类。其中，垂类大模型对于垂直行业的业务理解和资源积累要求较高，中间集成商负责组合多个模型接口，形成新的整体模型。以AI游戏引擎公司RPGGO为例，对于个人用户而言，RPGGO基于自研的游戏引擎Zagii Engine，能够协助个人创作者简化开发流程，实现最大化的创意输出；对于游戏工作室而言，RPGGO能够提供API联动，提升游戏开发效率。

就战略合作或产品布局而言，国内底层大模型厂商正发力布局中间层及终端应用层，以此为自身的底层大模型产品提供能力出口和数据入口，如针对未来智能终端提前布局多模态AI平台的李未可科技等。

应用层：文字生成发展时间较长，跨模态生成潜力最高

AIGC产业应用层多是基于模型能力和对用户需求的洞察，直接面向B端或C端客户进行服务，可将其简单理解为移动互联网时代的各类工具，未来的潜力空间较大，大批初创企业可参与其中。

如果按照模态划分，应用层可分为文字生成、音频生成、图像生成、视频生成、跨模态生成和策略生成。由于NLP技术发展历史较久，因此文字生成属于发展时间最长、落地应用也最为成熟的赛道。而在这波AIGC发展热潮中，跨模态生成将会带来最多的新应用场景。其中，文字生成图像、文字生成视频和图像/视频生成文本均已有产品问世，尤其是文字生成图像，如Stability AI，已经在全球范围内有了C端用户量的证明。

根据量子位智库对不同模态不同应用场景技术成熟度、应用成熟度和未来市场规模的估算，目前文本生成中，文本辅助生成赛道规模潜力最大；跨模态生成中，文字生成图像/视频赛道规模潜力最大。

图示：AIGC产业应用层不同赛道发展预测（圆圈大小表示预估 2030 年，该赛道相对市场规模）；数据来源：量子位智库，36氪研究院整理

2030年，中国AIGC市场规模将达万亿级别

根据量子位智库数据，2023年中国AIGC市场规模约为170亿元，预计2025年之前，中国AIGC市场规模增长率都将维持在25%左右，2025年市场规模将达到257亿元。2025年起，随着底层大模型逐步对外开放，中间层及应用层将迎来爆发式增长，带动AIGC行业市场规模快速增长，年均复合增长率将超过70%，到2027年，中国AIGC市场规模将超过600亿元。2028年起，AIGC产业生态更加成熟，并在各行各业实现商业化落地应用，2030年，市场规模将超过万亿人民币。

图示：2023-2030年中国AIGC产业市场规模预测；数据来源：量子位智库，36氪研究院整理

2、前沿技术分析

多模态发展已成行业共识，文本端技术路径已收敛于LLM

按照处理的数据类型数量，AI模型可以划分为单模态和多模态两类：单模态只能处理一种类型数据，如文本或音频或图片；多模态则能够处理两种或两种以上的数据类型。相比单模态，多模态大模型在输入输出端的优势明显：不同模态的输入数据具有互补性，多元训练数据输入有助于通用大模型能力的快速扩展，多模态数据输入使用门槛更低和数据损耗更少，同时也能够大幅提升使用者的应用体验；多模态数据的输出则省去了多模型的整合，更容易实现商业落地。

现阶段，AIGC大模型从单模态向多模态发展已成为行业共识。在文本端应用ChatGPT（2022年11月面世）和图像生成代表应用Midjourney V5（2023年3月面世）影响下，文本端和图像生成应用在2023年呈爆发式增长。2024年2月16日，OpenAI发布文生视频应用Sora，使视频生成领域成为新一轮行业热点，预计2024年将迎来技术和资本的高度关注。

图示：多模态大模型技术发展情况；资料来源：西南证券，公开市场资料，36氪研究院整理

目前，基于Transformer结构的预训练模型是多模态大模型的主流训练方式。如谷歌的GEMINI，就是在不同的模态上进行预训练，利用额外的多模态数据进行微调以提升其有效性。随着文本生成大模型的发展，LLM已成为确定性技术路径。通过扩展，LLM的性能可以在困惑度（生成文本的流畅度）等定量指标上实现大幅改进，只要在训练期间接触到多样化的语言模式和结构，LLM就能以高保真度模仿和再现这些模式。

然而，多模态技术面临数据存量即将枯竭的困境。不同类型的数据标注成本不同，视觉等模态数据收集成本通常高于文本数据，这导致多模态数据集（尤其是高质量数据集）远少于文本数据集。Epochai数据显示，在AIGC大模型高速发展背景下，高质量的语言数据可能在2026年之前耗尽，而低质量的语言数据也可能在未来20年内面临枯竭。

为了解决数据枯竭问题，AI合成数据应运而生，如结构化数据企业Mostly AI和非结构化数据企业DataGen，前者能够生成与真实数据预测特性相当的匿名数据集，后者则能够为计算机视觉团队提供合成数据集的自助服务平台。AI合成数据适应多模态模型的数据模态组合，且数据获取速度更快，能够有效增加数据存量。

路径对比：扩散模型占据主流，自回归模型仍有潜力

AI生成视频与AI生成图片的底层技术框架较为相似，主要包括生成式对抗网络（GAN）、自回归模型（Auto-regressive Model）和扩散模型（Diffusion Model）三大路径。目前，扩散模型已成为当前AI生成视频的主流模型。

（1）生成式对抗网络（GAN）

GAN是早期的主流图像生成模型，通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力，使得生成式网络的数据趋近真实数据，从而图像趋近真实图像。相较于其他模型，GAN的模型参数量较小，所以更加擅长对单个或多个对象类进行建模。弊端是GAN的训练过程稳定性较差，导致其生成的图像缺乏多样性，因此逐渐被自回归模型和扩散模型替代。

（2）自回归模型（Auto-regressiveModel）

自回归模型采用Transformer进行自回归图像生成。Transformer整体框架主要分为Encoder和Decoder两大部分，能够模拟像素和高级属性（纹理、语义和比例）之间的空间关系，利用多头自注意力机制进行编码和解码。与GAN相比，自回归模型具有明确的密度建模和稳定的训练优势，能够通过帧与帧之间的联系生成更为连贯且自然的视频。由于自回归模型本身参数数量通常比扩散模型大，其对于计算资源要求及数据集的要求往往高于其他模型，因此受计算资源、训练所需的数据和时间限制较大。但也正由于其参数具备更大的扩展潜力，图像生成和视频生成的自回归模型将有望借鉴Transformer在文本领域LLM的经验，通过对不同模态进行跨模态、规模化的训练，最终实现“大力出奇迹”。

（3）扩散模型（Diffusion Model）

直白来说，扩散模型就是通过定义一个扩散步骤的马尔可夫链，连续向数据添加随机噪声，直到得到一个纯高斯噪声数据，然后再学习逆扩散过程，经过反向降噪推断来生成图像，通过系统扰动数据中的分布，再恢复数据分布，逐步优化的过程。以Sora为例，Sora由Visual Encoder、Diffusion Transformer和Transformer Decorder三大Transformer组件组成。在训练过程中，给定一个原始视频X，Visual Encoder将视频压缩至较低维的潜在空间，然后在潜在空间中接受训练，该训练过程应用的就是基于扩散模型的Diffusion Transformer，先加噪再去噪，逐步进行优化，最终将生成的时间和空间上压缩的潜在表示通过Transformer解码器映射回像素空间，即视频X1。由于计算效率更高、成本更低，并且能够在处理数据（压缩/放大）时获得高质量图像，扩散模型已逐渐成为文生图和文生视频领域的主流技术路径。

图示：扩散模型VS自回归模型；资料来源：公开市场资料，36氪研究院整理

3、应用概况

随着ChatGPT、文心一言、Sora等产品问世，AIGC覆盖场景愈发丰富，表现效果逐步成熟。机遇与挑战并存，AIGC为行业带来发展机遇，创造出更多新应用场景和商业模式的同时，也伴随着一些需要应对的挑战。

对于ToB类企业而言，AIGC可与其现有业务进行有机结合，实现业务降本增效，为数字人、SaaS、数字设计、金融等行业带来新机遇

数字人。虚拟数字人的发展与AI、CG、虚拟现实等多个领域底层技术的突破密不可分。AIGC与数字人的融合，赋予虚拟人更多的“敏捷力”与“生命力”的同时，实现其在更多应用场景的落地。一方面，AIGC技术可将静态照片转为动态视频，并实现如人脸替换、表情转变等视频特效，让虚拟人更加生动逼真；另一方面，AI技术提升虚拟人多模态交互能力，无需人工干预，即可实现自动交互，让虚拟人具有内在“思考”能力，加速其在更多领域的应用。此外，AI技术有望实现从创建、驱动到内容生成的“一站式”全流程自动化，降低企业开发成本。例如，趣丸科技已初步建成高自然度虚拟数字人生成技术平台，可在10秒左右，通过单张或几张照片生成面部相似度达到90%以上的高自然度虚拟数字人，耗费时间短、成本低、具有多模态交互能力，降低了普通用户使用技术门槛和经济负担，实现在科普教育、直播零售、游戏动漫等场景的应用。

SaaS。面对不断发展与变化的市场环境，保持业务侧数字化运营和顺畅的上下游衔接成为越来越多企业的必然选择，这意味着SaaS行业需提升智能化程度，为企业提供可快速响应、交互和决策价值分析等服务。在客户管理场景中，AIGC的文本生成模式可作为聊天机器人，根据客户沟通内容快速进行反馈，提供个性化互动并主动提供查询以外的其他相关服务，使SaaS软件更易于访问和使用。在业务流程自动化场景中，AIGC可实现通过简单指令，综合管理企业业务流程，提高工作效率。例如，在财务管理方面，整合分析财务数据，提供全面的财务报告与分析；在营销方面，动态生成个性化客户邮件及广告；在供应链管理方面，自动处理上下游单据和数据录入；在人力资源方面，实现智能面试和薪酬考核自动化。

数字设计。随着多模态预训练大模型等底层技术的逐渐成熟，AIGC在音图视频生成上展现出更强的能力，应用也愈发广泛。一方面，图像生成在工业设计、平面设计、插图设计、游戏动画制作等数字设计领域快速应用，在工作前期，AIGC可辅助搜集素材、快速生成草稿，在后期，用户可通过文字指令实现调色、构图调整、P图、调整风格等功能，降低设计创作门槛的同时，减少基础性机械劳动。另一方面，视频生成在建筑设计、工业设计、游戏设计等行业中，可提供更加直观的演示效果，显著缩短工作时长。

图示：AIGC融入数字设计工作流程

金融。面对激烈的市场竞争，传统金融行业已难以满足消费者个性化需求。金融行业具有资源密集型特点，利用AIGC分析、生成能力可提升其服务效率，推动其优化业务流程，提供更便捷的以客户为中心的产品与服务。具体而言，AIGC主要被应用在风险评估、量化交易、柜台业务办理等方面。在风险评估环节，AIGC可快速分析分散的、多维交易数据和行为模式，精确监测并识别潜在风险和检测欺诈，提高风控精确度。在柜台服务环节，AIGC可根据客户需求和自身画像，为其推荐更适宜的产品和定制化金融服务，提高客户满意度。

对于ToC类企业而言，AIGC将帮助游戏、影视、出版等行业提高内容产出效率，提升消费者体验

出版。对于以内容为根本的出版业而言，AIGC将引发内容生产范式变革。一方面，AIGC替代用户成为内容生产者，迅速提高内容产出效率；另一方面，AIGC可辅助完成编辑工作，节省编辑工作时间，释放人力。具体而言，在内容生产环节，AIGC的文本输出能力辅助作者完成内容创作，后续随着技术的发展，甚至可直接创作内容，并拥有独特的写作风格。目前，部分小说网站推出AIGC辅助创作功能，作者输入特殊关键词，即可自动生成内容，并为作者提供灵感。在编辑环节，AIGC可通过抓取热点新闻、事件，基于自动分析挑选选题的同时，基于文本识别和深度学习模型，快速完成文章审校工作，提高编辑工作效率。

游戏。在行业竞争愈发激烈且玩家喜好更加细分的背景下，AIGC与游戏的融合，从内容、画面、玩法等方面全面优化玩家游戏体验，并提高游戏自身竞争力。在内容和玩法方面，一方面，AIGC提高NPC对话逻辑性、细化语调、表情和肢体动作、将环境与NPC搭建起情感联系，增强玩家与游戏的交互性，为玩家提供自由度较高的沉浸式体验；另一方面，输入目标、场景、角色等信息，AIGC可生成玩法文案，提供关于机制和故事情节等方面建议，平衡并丰富游戏玩法，提升游戏的趣味性。此外，AIGC可辅助生成更精美的画面，工作人员通过文字表述即可生成图片和动画，提高绘画效率的同时，提升玩家的体验。

影视。影视行业工作流程普遍较长，涉及大量人力与时间成本，AIGC将赋能影视制作全流程，从策略、摄制、制作到宣发阶段，大幅降低影视行业门槛，提供内容创意参考的同时，实现行业的降本增效。在策划阶段，深度学习算法可通过快速大量阅读已发布影片，再结合关键词，为编剧提供剧本创意参考的同时，在剧本完成后，也可帮助编剧进行润色和翻译等工作。在摄制阶段，一方面，导演可利用AIGC帮助完成分镜绘制、镜头语言设计等工作；另一方面，制片人可省去日程安排、制片统筹、剧组预算等基础工作所需时间，实现工作的简化并节省时间成本。在后期制作阶段，AIGC可完成如添加字幕、视频剪辑、视频调色等基础工作，随着技术的成熟，也逐渐可完成特效制作、动画制作等复杂工作。以2023年奥斯卡最佳影片《瞬息全宇宙》为例，这部科幻电影的视觉效果团队仅有五人，他们通过与Runway合作，使用其AI工具完成背景、放慢视频、制作无限延伸的图片等工作，极大地提升了视觉特效制作效率。

图示：AIGC赋能影视制作各个阶段

尽管AIGC可大幅提高各行业的智能化水平及运营效率，但其发展仍存在一定局限性，应用端存在诸多挑战

SaaS。AIGC在SaaS行业中的应用带来了数据隐私和信息安全等问题。在提供个性化服务和支持的过程中，AIGC需要输入企业内部运营、财务、个人交易等敏感信息数据。而AIGC模型具有潜在的记忆能力，在生成内容的过程中可能无意提取其他用户的私人数据，由此带来严重的隐私泄露风险。

数字设计。设计行业对版权要求尤为重要。AIGC通过来自互联网、第三方数据集等大规模数据进行训练时，可能包含通过网络爬虫或其他方法获取的未经授权的数据，进而生成类似风格的衍生作品，易产生已存在内容和新创意元素的混合物，进而引发知识产权归属混乱的问题，产生潜在的法律风险和版权纠纷。尤其在数字设计领域，AIGC的应用可能涉及大量原始数据的使用和转换，生成作品版权归属存在较大争议。

金融。金融行业大多交易需参考各方信息，对信息准确性要求较高。然而，基于历史和实时信息，AIGC所做分析准确性仍有待提高且无法预测意外事件的发生。近年来，金融机构纷纷推出智能顾问等生成式AI工具，若投资者过度依赖其提供的预测和建议，可能导致不理智的投资行为，加剧羊群效应，进而增加风险集中度。此外，AIGC易生成虚假新闻或误导信息，导致投资者做出错误决策的同时，可能导致市场价格异常波动。

游戏。作为一种高度强调实时人机互动的娱乐形式，AIGC的出现让玩家在虚拟世界获得了更好的沉浸式体验，但不受剧情控制、无限延展的人机对话，在交互内容合规方面存在较大不确定性，若AIGC对过滤词把控不力，玩家可能会受到冒犯或伤害。

影视。对于需引起情感共鸣的影视行业，相对于人类基于丰富情感和深厚阅历的创作，AIGC仅能依靠已有数据和算法生成较为生硬、冰冷的内容，拟人化的情感表达尚待提升。

出版。在文学领域，对于内容所涉及的伦理和道德问题要求较为严格，目前，AIGC无法确保生成内容的合规性，用于开发AIGC模型的训练数据可能包含歧视、暴力等内容，从而生成种族歧视、性别歧视等有害内容。

总体而言，AIGC依托多模态大模型、深度学习算法等赋能金融、游戏、出版等千行百业，但带来的如伦理、版权、数据安全等问题与挑战也不容忽视。

4、发展展望

Sora等软件展示的跨模态生成能力意味着AGI时代将加速到来

通用人工智能（Artificial General Intelligence，AGI）是一种可以在任何专业领域内像人类一样思考、学习、修正并执行智力任务的人工智能系统，要求AI系统具备人类所理解的常识、共同行动规范和价值观，最大特点是对真实世界的规则，如物理状态、自然规律、化学变化等因素做出反馈，是人工智能发展的最高目标之一。Sora、ChatGPT等应用软件的发布意味着AI技术领域取得突破性进展，具备更强的时空建模能力和更高的计算复杂度，可模拟具有三维空间、符合物理规律的真实物理世界，为理解现实世界和模拟世界的实现打下技术基础，也将推动多模态AI加速发展，并进一步加快AGI的发展进程。

技术创新与技术融合将推动AIGC的生成能力和应用能力不断增强

未来，一方面，随着深度学习、计算机视觉等技术的不断成熟和如知识蒸馏等新技术的持续创新，AIGC的生成质量、速度和效率等方面能力将进一步提升；另一方面，多模态大模型将与如自然语言处理技术、虚拟现实、增强现实、数字孪生等更丰富的技术融合，拓展如自动驾驶、药品研发、安防等更多应用场景的同时，为用户提供更丰富的解决方案，满足越来越多用户需求。如在自动驾驶领域，AIGC技术可创造更多合成数据，弥补真实数据不足的缺陷，加速仿真场景的搭建，提升仿真测试效率。

作者：36氪

来源：36氪