Sora – 青瓜传媒 //www.f-o-p.com 全球数字营销运营推广学习平台! Fri, 26 Apr 2024 07:35:53 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.20 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico Sora – 青瓜传媒 //www.f-o-p.com 32 32 Sora产品运营分析 //www.f-o-p.com/343390.html Fri, 26 Apr 2024 07:35:53 +0000 //www.f-o-p.com/?p=343390

在数字化转型浪潮下,云协作平台已成为企业提升效率、实现远程协同办公的关键工具。其中,Sora作为一款新兴的云协作解决方案,凭借其独特的功能特性和用户体验,逐渐崭露头角。然而,面对市场上已有的众多成熟竞品,Sora如何在激烈的竞争中立足并脱颖而出?本文将对Sora的主要竞品进行深度分析,旨在揭示云协作市场的竞争态势,为用户选择最适合自己的协作平台提供参考。

一、Microsoft Teams

1.1 产品概述

Microsoft Teams是微软推出的集即时通讯、会议、文件共享、应用程序集成于一体的云协作平台,作为Office 365的一部分,它与Microsoft Office系列软件深度整合,为用户提供无缝的办公体验。

1.2 竞争优势

  • 深度集成Office生态:Teams与Word、Excel、PowerPoint等Office应用高度集成,支持在线编辑、实时协作,极大提升了工作效率。
  • 强大的会议功能:提供高清音视频会议、屏幕共享、实时字幕、背景模糊等功能,满足各种会议场景需求。
  • 企业级安全与合规:依托微软强大的企业级安全体系,提供数据加密、访问控制、合规性管理等保障。

1.3 对比Sora

相较于Sora,Microsoft Teams在企业级市场拥有深厚积淀,尤其在与Office生态的紧密集成、全面的会议功能以及强大的安全保障方面具有明显优势。但可能对于寻求轻量化、更易上手的协作工具,或是非Microsoft生态依赖的企业,Sora的简洁界面与定制化功能可能更具吸引力。

二、Slack

2.1 产品概述

Slack是一款专注于即时通讯与协作的云平台,以其简洁的界面、高效的沟通方式和丰富的第三方应用集成闻名于世,尤其受到科技初创公司和敏捷团队的喜爱。

2.2 竞争优势

  • 简洁高效的沟通:通过频道(Channels)划分工作话题,便于团队成员快速找到并参与到相关讨论中。
  • 强大的第三方集成:支持超过2000款第三方应用,涵盖项目管理、CRM、开发工具等多个领域,实现一站式工作流程。
  • 灵活的API与自定义功能:开放API允许企业进行深度定制,打造符合自身工作流程的个性化协作环境。

2.3 对比Sora

Slack在即时通讯与第三方应用集成方面表现出色,适合高度依赖跨平台协作与定制化工作流程的团队。相比之下,Sora可能需要进一步强化其应用生态与API开放能力,以满足更广泛的企业个性化需求。然而,Sora在用户体验、易用性以及特定功能(如特定行业的定制模块)上可能有其独到之处,能吸引偏好简洁直观操作的用户。

三、Zoom

3.1 产品概述

Zoom是一款全球知名的视频会议解决方案,近年来因其出色的音视频质量和易用性迅速崛起,已发展成为包含会议、聊天、电话系统、会议室解决方案等在内的全方位协作平台。

3.2 竞争优势

  • 卓越的音视频性能:Zoom以高清流畅的音视频体验为核心竞争力,尤其在网络条件不佳的情况下仍能保持稳定通话质量。
  • 跨平台兼容性:支持Windows、Mac、iOS、Android等多种设备,以及浏览器接入,确保用户随时随地参加会议。
  • 丰富的会议功能:提供屏幕共享、白板、录制、虚拟背景、等候室等功能,满足各类会议需求。

3.3 对比Sora

Zoom在音视频会议方面的专业性和跨平台兼容性为其赢得了广泛的用户基础。尽管Sora可能在某些特定会议功能上与Zoom存在差距,但它可能通过提供更一体化的协作体验、更贴近特定行业需求的功能或更优惠的价格策略,吸引部分寻求全方位协作解决方案的用户。

结论

Sora作为云协作市场的新秀,面临着与Microsoft Teams、Slack、Zoom等强大竞品的竞争。这些竞品各具特色,分别在Office生态集成、即时通讯效率、音视频会议等方面展现出竞争优势。Sora要在市场中立足并取得突破,需明确自身定位,充分发挥在用户体验、行业定制、性价比等方面的差异化优势,同时不断提升核心功能,加强生态系统建设,以满足不同用户群体的多元化协作需求。用户在选择协作平台时,应根据自身业务特性和团队工作习惯,综合考量各平台的优势与不足,作出最适合自己的决策。

]]>
抖音追不上Sora //www.f-o-p.com/343026.html Mon, 22 Apr 2024 08:16:49 +0000 //www.f-o-p.com/?p=343026

 

在AI文生视频这条热门赛道,抖音旗下的剪映,正在被OpenAI的Sora越甩越远。

近日,美国软件巨头Adobe宣布,将在知名视频编辑软件Premiere Pro的新版本添加多款文生视频AI工具。近两个月震动全球科技圈的Sora,以及两款同类产品Gen-2和Pika,都会在不久的将来加入“Adobe全家桶”。

有了Sora等第三方AI工具的助力,新版Premiere Pro除了编辑处理预先拍摄的常规视频外,还能根据用户输入的文本即时生成AI视频,并将两者融为一体。

Adobe放出了一条官方演示视频:一个男人走向窗前,观看整个城市的夜景。用户无需拍摄实景,只需输入一段文字,即可利用Sora生成一段城市雨夜的视频,并与前面的视频无缝衔接,效果几可乱真。

Sora今年2月初次亮相,OpenAI放出几段演示视频,但并未公布产品进展和上线时间。如今,Sora被Adobe接纳,表明过去几个月又有不小进步,距离开放使用更近。

另一边,背靠抖音的视频剪辑软件剪映,同样朝着AIGC(人工智能生成内容)方向前行。但截至目前,剪映尚未拿出令人惊艳的成绩。

目前,剪映的AI玩法不少,包括一键成片、剪同款、AI克隆音色、数字人口播等,但并不具备根据文本直接生成视频的能力。它的海外版本Capcut在2月底推出文生视频功能,但效果距离Sora相去甚远。

如今,Sora除了在技术和产品上领先剪映,还得到了Adobe的青睐。Adobe在全球拥有超3300万付费用户;Sora接入“Adobe全家桶”,有望获取订阅收入分成,从而初步构建商业模式。

这也意味着,仍在打磨AIGC能力的剪映,追赶Sora的难度将越来越大。

剪映被外界视为抖音搭上AIGC时代快车的关键筹码。得益于抖音的加持,剪映已成为用户量最大的手机视频剪辑软件之一,每天产出大量短视频;在此基础上更进一步,从UGC(用户生产内容)迈向AIGC,似乎水到渠成。

今年2月7日,抖音功勋老将张楠辞去集团CEO职务,亲自带队剪映。她在官宣职务变动的内部信中称,AI图像生成对她产生很大的触动,潜力巨大,并决定“放下一切”,义无反顾地出发。

剪映的发展根基不可谓不好,抖音的重视程度也很高。但两个多月过去,剪映依然没有太大动静,Sora反而继续高歌猛进。

在AIGC时代,抖音及其背后的字节,似乎总是棋慢一着。

字节八年前布局AI,成立了专门的实验室,招募大批业内精英,但成果却停留在内容审核、自动翻译、搜索服务等。2022年下半年,ChatGPT引爆行业;字节随即增加大模型投入,一口气推出AI聊天机器人等十几款应用,却迟迟没有拿出震动行业的技术和产品。

今年1月底的年度全员会上,字节CEO梁汝波感叹,字节“该有的大公司病全有了”。他特别点名AI业务,称:“公司层面的半年度技术回顾,直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司,都是在2018年至2021年创立的。”

如今,在立身之本的视频内容领域,OpenAI着着抢先,剪映乃至整个字节又双叒慢了。

01

背靠抖音这颗大树,剪映原本有很大机会在AI文生视频领域的占得先机。

剪映2019年上线,2021年推出PC端的专业版。它显著拉低了UGC视频的创作门槛,普通人只需准备好素材、点击几下,就能生成一段质量尚可的视频,并一键发布至抖音。

此外,作为一款工具软件,剪映还带有一定的社区属性。除了官方提供的视频创作课堂外,用户还可以参考达人制作的视频模板进行创作,也就是“剪同款”。这有助于提高用户留存率和活跃度。

依靠丰富的功能,以及与抖音深度绑定,剪映仅用了三年就获得超1亿月活跃用户,跃升至同类软件的第一名。

剪映海外版CapCut的增长同样惊人。

Capcut上线于2020年,与TikTok关联密切。移动应用分析平台点点数据显示,目前Capcut的月活跃用户超2亿。另据市场调研机构data.ai的数据,截至2023年8月,Capcut在iPhone和安卓端的用户超4.9亿,相当于TikTok全球用户量的1/4。

除了用户规模庞大,剪映在AI领域的另一个优势是“近水楼台先得月”,坐拥大量可用于AI大模型训练的视频数据。

数据、算法和算力是AI大模型的三大基础要素,其中数据是根基。要想提升大模型的综合能力,就需要不断“投喂”多模态数据,主要是互联网文本、图像和视频。

OpenAI、Adobe等公司都不直接掌握数据,必须从第三方付费获取,成本不菲。据媒体报道,OpenAI每年仅采购版权新闻文章授权的费用,就高达100万~500万美元;Adobe为了训练自家的文生视频大模型,以每分钟3美元的价格,向另一个大模型服务Midjourney购买视频片段。

相比之下,剪映在国内绑定抖音、在海外背靠TikTok,每天有大量用户使用它剪辑和上传视频。这让剪映能够以相对低廉的成本,接触到大量视频内容,为训练大模型、探索AI文生视频功能打下基础。

但从2019年至今,剪映并未研发出强大的AIGC能力,反而早早启动了商业化。

剪映很早就上线了VIP会员,用户每月支付二三十块钱,可以使用专属素材、精选模板等,AI玩法也被列为会员权益之一。根据官方介绍,AI玩法主要包括“无限创作”“无限运镜”和“瞬息宇宙”,基于现有视频素材进行AI美化编辑。

不难看出,剪映的AI玩法距离Sora这样的文生视频相去甚远。此外,它的收费也并不低廉:会员每月可获得1200积分,而使用一次“无限运镜”就需要480积分。积分耗尽后,用户可以选择继续充值,兑换比例为1元:100积分。

剪映诞生之初的定位是,尽可能拉低短视频创作门槛,促进抖音UGC生态的繁荣。过去五年,它的确完成了这一任务,大量抖音爆款视频背后,都有剪映提供技术和模板。特别是那些趣味特效视频、踩点视频,抖音红人发布之后,大量用户迅速群起效仿、共同推高热度;没有剪映的帮忙,恐怕不易做到这一点。

但如今看来,抖音还是把剪映的天花板设定地太低了。它原本有机会成为Sora这样的划时代产品,却始终停留在视频剪辑软件的范畴。

今年以来,剪映开始奋起直追,但先机已失、对手已至,追赶难度也迅速增大。剪映被Sora甩开,字节在AI领域仍然没能跳出“起大早、赶晚集”的怪圈。这也从侧面印证了梁汝波此前批评的“平庸的重力”。

02

过度重视对业务的帮助,过早追求商业化,是剪映乃至整个字节AI板块的难题。

剪映除了开设付费会员、将AI玩法纳入权益包,还在APP内增加了不少广告位。例如,用户点击“剪同款”,映入眼帘的除了手机照片和视频素材,还有悬浮在素材上方、几乎毫无关联的横幅广告。

作为一款用户破亿的工具软件,剪映的常规投入和资金压力并不会特别大。它之所以早早发展会员和广告,或许与字节的做事风格和评判标准有关。

众所周知,字节是一家超快节奏、高度内卷的互联网巨头。如果个人、团队或业务无法迅速带来肉眼可见的产出,就有可能被调整,甚至彻底出局。即使是需要长期投入的AI,也无法跳出这一隐形的评判标杆。

早在2016年,字节就设立了AI Lab人工智能实验室,并引入多位学界和行业精英。彼时,OpenAI同样初出茅庐,正朝着通用人工智能的愿景前行,将自己视为非营利组织。

相比之下,AI Lab虽然名为“实验室”,实际上仍然需要密切配合和服务业务。它的官网宣称,其研究重点是开发为字节内容平台服务的新技术;具体领域则包括自然语言处理、数据挖掘、计算机视觉、机器学习等,且和抖音各业务板块贴合紧密。

随后几年,字节拿出了一系列AI工具,比如提供翻译服务的Byte Translator,AI写稿机器人Xiaomingbot,以及头条和抖音的搜索服务等。它们固然颇有价值,但算不上突破AI领域认知边界、定义AI发展范式的创新产品。

直到2022年下半年,OpenAI多年磨一剑,ChatGPT席卷全球,生成式AI成为全球科技公司竞逐焦点,字节才把更多精力投入到这一新浪潮中。

已经淡出字节一线管理的张一鸣,对AI产生强烈兴趣,并鼓励团队大举投入。字节跳动无法错过AGI(通用人工智能),它是抖音和TikTok在全球发现新的增长机遇不可或缺的伙伴。

创始人发话后,字节各业务部门闻风而动。从那时起,字节陆续上线十多款AI产品,如豆包、话炉、扣子、Gauth等,剪映、飞书等也增添了AI功能。

但在这一轮大举投入中,字节以业务需求为原点、对标竞争对手的做事逻辑被延续下来。豆包等产品均为现有AI技术的场景化应用,而非对于AGI的原生探索。

例如,去年3月,微软上线整合了GPT功能的365 Copilot,全球办公软件市场为之震动。一个月后,飞书宣布即将上线AI助手“My AI”,以对话形式提供多种功能,包括优化和续写文字内容、创建日程、自动汇总会议纪要、搜索公司内部知识库等。

一年后,GPT已经在微软“全家桶”遍地开花,带动后者股价从250美元一路上涨至400美元以上。飞书却没能依靠My AI完成逆袭,反而在3月底宣布裁员。

又比如,Sora今年2月16日发布演示视频,CapCut一周后就宣布推出这一功能,每人每天可免费生成5段视频。CapCut的技术力显然无法与OpenAI比肩,其文生视频功能也较为简陋;仓促上线、对标Sora,不免带有蹭热点、强行完成KPI的味道。

从张一鸣点名AGI至今,字节AI又走过了一年,并未显著拉近与OpenAI的差距,甚至有扩大的趋势。字节AI向实用主义的过度倾斜,不仅让它错失了以往的机遇,也有可能拖累追赶的步伐。

03

对于AI板块各自为战、围绕业务打转的局面及其危害,字节已经有所察觉。

2023年11月,字节抽调多个部门的精兵强将,组建AI部门Flow。TikTok技术负责人朱文佳、字节产品与战略副总裁朱骏、字节技术副总裁洪定坤、飞书产品副总裁齐俊元均加入其中。人员的“高配”,显露了字节通过Flow统筹AI发展、消除重复建设的意图。

目前,字节曝光度最高的AI产品——豆包、扣子、话炉等,均由Flow部门负责。剪映、飞书、大力教育等虽然也有AI业务,但声量已经逐渐被Flow盖过。

另一方面,字节云雀大模型已经打磨近一年时间,多模态大模型BuboGPT也取得进展,为Flow批量产出AI应用奠定根基。假以时日,Flow有望扭转字节AI总是慢人一步的局面。

不过,字节毕竟不是OpenAI,没有微软这样的超级金主。AGI固然重要,但对于现有业务的拉动尚不明显,需要更长时间的沉淀和打磨,才能释放商业价值;字节对AGI的投入不可能无止境,必须考虑中短期的投入产出比。

短期来看,字节需要用钱、用人、用资源的地方很多,比如抖音货架电商、生活服务等,都需要大量真金白银。随之而来的现象是,尽管Flow挑起了大梁,但字节AI依然呈现兼顾业务需求的倾向。

据Tech星球近日报道,抖音生活服务刚刚成立一支AI团队,希望利用AI技术创造增量业务价值,且已开启对相关AI产品的研发,包括搭建生活服务相关的内容创作平台等。

抖音生活服务之所以拉起这样一支队伍,或许与竞争对手美团和饿了么的动作有关。

美团近日开始小规模测试AI助手服务“问小袋”,可为用户推荐符合其需求的外卖商品,以及用餐建议。饿了么则在4月初面向零售行业商家发布“AI经营助手”,可为商家智能生成各类经营关键报表和关键数据。

在此情况下,不让美团饿了么专美于前,或许是抖音生活服务入局AI的基本目标之一。

内外因素影响下,字节没有条件像OpenAI那样厚积薄发。既要追赶AGI潮流,又要具备快速落地、服务业务的能力,是字节AI的双重目标。

在张一鸣和梁汝波的督促下,外界无需质疑字节做AI的决心。但倘若再过去一年、两年,字节仍然跟不上OpenAI的节奏和水准,那么它或许应该考虑另一种选择:退回“卖水者”的角色,做AGI训练素材提供商。

如前所述,数据是大模型的三大基础要素之一,而字节麾下的今日头条、抖音、TikTok等,已经积累了数以亿计的文本、图片和视频。字节可以用这些数据训练自家大模型,也可以考虑更进一步,在妥善解决安全和隐私问题的前提下,将其出售给OpenAI等第三方公司。

充当AGI时代的“卖水者”,其实是字节擅长的流量生意的变体。字节如今的现金牛——广告和电商业务,都建立在流量变现的基础上;如果把AI公司转变为新客户,那么字节心心念念的第二增长曲线问题将迎刃而解。

另一方面,OpenAI既然能够与微软、Adobe合作,与字节合作也并非不可想象。毕竟,抖音和TikTok是Sora等AIGC服务最庞大的落地场景。倘若字节与OpenAI达成“竞合”关系,那么字节将跳出一步慢、步步慢的循环,在OpenAI的助力下搭上AI快车。

 

撰文:彦飞,编辑:王靖

来源公众号:字母榜(ID:wujicaijing)

]]>
剑指Sora,120秒超长AI视频模型免费开玩 //www.f-o-p.com/342307.html Mon, 15 Apr 2024 06:40:44 +0000 //www.f-o-p.com/?p=342307

 

近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时,作为开源世界的强大组件,StreamingT2V可以无缝兼容SVD和animatediff等模型。

120秒超长AI视频模型来了!不但比Sora长,而且免费开源!

近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,同时质量也很不错。

论文地址:https://arxiv.org/pdf/2403.14773.pdf

并且,作者表示,两分钟并不是模型的极限,就像之前Runway的视频可以延长一样,StreamingT2V理论上可以做到无限长。

在Sora之前,Pika、Runway、Stable Video Diffusion(SVD)等视频生成模型,一般只能生成几秒钟的视频,最多延长到十几秒,

Sora一出,60秒的时长直接秒杀一众模型,Runway的CEO Cristóbal Valenzuela当天便发推表示:比赛开始了。

——这不,120秒的超长AI视频说来就来了。

这下虽说不能马上撼动Sora的统治地位,但至少在时长上扳回一城。

更重要的是,StreamingT2V作为开源世界的强大组件,可以兼容SVD和animatediff等项目,更好地促进开源生态的发展:

通过放出的例子来看,目前兼容的效果还稍显抽象,但技术进步只是时间的问题,卷起来才是最重要的~

总有一天我们都能用上「开源的Sora」,——你说是吧?OpenAI。

免费开玩

目前,StreamingT2V已在GitHub开源,同时还在huggingface上提供了免费试玩,等不了了,小编马上开测:

不过貌似服务器负载太高,上面的这个不知道是不是等待时间,反正小编没能成功。

目前试玩的界面可以输入文字和图片两种提示,后者需要在下面的高级选项中开启。

两个生成按钮中,Faster Preview指的是分辨率更低、时长更短的视频。

小编于是转战另一个测试平台(https://replicate.com/camenduru/streaming-t2v),终于获得一次测试机会,以下是文字提示:

A beautiful girl with short hair wearing a school uniform is walking on the spring campus

不过可能由于小编的要求比较复杂,导致生成的效果多少有点惊悚,诸位可以根据自己的经验自行尝试。

以下是huggingface上给出的一些成功案例:

01 StreamingT2V

Sora的横空出世曾带来巨大的轰动,使得前一秒还闪闪发光的Pika、Runway、SVD等模型,直接变成了「前Sora时代」的作品。

不过就如同StreamingT2V的作者所言,pre-Sora days的模型也有自己的独特魅力。

模型架构

StreamingT2V是一种先进的自回归技术,可以创建具有丰富运动动态的长视频,而不会出现任何停滞。

它确保了整个视频的时间一致性,与描述性文本紧密对齐,并保持了高帧级图像质量。

现有的文本到视频扩散模型,主要集中在高质量的短视频生成(通常为16或24帧)上,直接扩展到长视频时,会出现质量下降、表现生硬或者停滞等问题。

而通过引入StreamingT2V,可以将视频扩展到80、240、600、1200帧,甚至更长,并具有平滑过渡,在一致性和运动性方面优于其他模型。

StreamingT2V的关键组件包括:

(i)称为条件注意力模块(CAM)的短期记忆块,它通过注意机制根据从前一个块中提取的特征来调节当前一代,从而实现一致的块过渡;

(ii)称为外观保留模块(APM)的长期记忆块,它从第一个视频块中提取高级场景和对象特征,以防止模型忘记初始场景;

(iii)一种随机混合方法,该方法能够对无限长的视频自动回归应用视频增强器,而不会出现块之间的不一致。

上面是StreamingT2V的整体流水线图。在初始化阶段,第一个16帧块由文本到视频模型合成。在流式处理 T2V 阶段中,将自动回归生成更多帧的新内容。

最后,在流优化阶段,通过应用高分辨率文本到短视频模型,并配备上面提到的随机混合方法,生成的长视频(600、1200帧或更多)会自动回归增强。

上图展示了StreamingT2V方法的整体结构:条件注意力模块(CAM)作为短期记忆,外观保留模块(APM)扩展为长期记忆。CAM使用帧编码器对前一个块上的视频扩散模型(VDM)进行条件处理。

CAM的注意力机制保证了块和视频之间的平滑过渡,同时具有高运动量。

APM从锚帧中提取高级图像特征,并将其注入到VDM的文本交叉注意力中,这样有助于在视频生成过程中保留对象/场景特征。

条件注意模块

研究人员首先预训练一个文本到(短)视频模型(Video-LDM),然后使用CAM(前一个区块的一些短期信息),对Video-LDM进行自回归调节。

CAM由一个特征提取器和一个特征注入器组成,整合到Video-LDM的UNet中,特征提取器使用逐帧图像编码器 E。

对于特征注入,作者使UNet中的每个远程跳跃连接,都关注CAM通过交叉注意力生成的相应特征。

CAM使用前一个块的最后一个Fconditional帧作为输入,交叉注意力能够将基本模型的F帧调节为CAM。

相比之下,稀疏编码器使用卷积进行特征注入,因此需要额外的F − Fzero值帧(和掩码)作为输入,以便将输出添加到基本模型的F帧中。这会导致SparseCtrl的输入不一致,导致生成的视频严重不一致。

外观保存模块

自回归视频生成器通常会忘记初始对象和场景特征,从而导致严重的外观变化。

为了解决这个问题,外观保留模块(APM)利用第一个块的固定锚帧中包含的信息来整合长期记忆。这有助于在视频块生成之间维护场景和对象特征。

为了使APM能够平衡锚帧的引导和文本指令的引导,作者建议:

(i)将锚帧的CLIP图像标记,与文本指令中的CLIP文本标记混合,方法是使用线性层将剪辑图像标记扩展到k = 8, 在标记维度上连接文本和图像编码,并使用投影块;

(ii) 为每个交叉注意力层引入了一个权重α∈R(初始化为0),以使用来自加权总和x的键和值,来执行交叉注意力。

自动回归视频增强

为了进一步提高文本到视频结果的质量和分辨率,这里利用高分辨率(1280×720)文本到(短)视频模型(Refiner Video-LDM)来自动回归增强生成视频的24帧块。

使用文本到视频模型作为24帧块的细化器/增强器,是通过向输入视频块添加大量噪声,并使用文本到视频扩散模型去噪来完成的。

然而,独立增强每个块的简单方法会导致不一致的过渡:

作者通过在连续块之间使用共享噪声,并利用随机混合方法来解决这个问题。

对比测试

上图是DynamiCrafter-XL和StreamingT2V的视觉比较,使用相同的提示。

X-T切片可视化显示,DynamiCrafter-XL存在严重的块不一致和重复运动。相比之下,StreamingT2V则可以无缝过渡、不断发展。

现有方法不仅容易出现时间不一致和视频停滞,而且随着时间的推移,它们会受到物体外观/特征变化,和视频质量下降的影响(例如下图中的SVD)。

原因是,由于仅对前一个块的最后一帧进行调节,它们忽略了自回归过程的长期依赖性。

在上图的视觉比较中(80帧长度、自回归生成视频),StreamingT2V生成长视频而不会出现运动停滞。

02 AI长视频能做什么

各家都在卷的视频生成,最直观的应用场景,可能是电影或者游戏。

用AI生成的电影片段(Pika,Midjourney,Magnific):

Runway甚至搞了个AI电影节:

不过另一个答案是什么呢?

世界模型

长视频创造的虚拟世界,是Agent和人形机器人最好的训练环境,当然前提是足够长,也足够真实(符合物理世界的逻辑)。

也许未来的某一天,那里也会是我们人类的生存空间。

参考资料:

https://github.com/Picsart-AI-Research/StreamingT2V

 

作者:新智元

来源公众号:新智元(ID:AI_era)

]]>
奥特曼专访:关于 GPT-5、Sora等 //www.f-o-p.com/340036.html Tue, 19 Mar 2024 07:22:19 +0000 //www.f-o-p.com/?p=340036

 

今天凌晨,也就是几个小时前,OpenAI 的董事长 Sam Altman 公开一则专访,包含一切大家感兴趣的话题,主持人是 Lex Fridman。

谈话内容,按顺序如下:

  • OpenAI 董事会之争
  • Ilya Sutskever 去哪了?
  • Elon Musk 的诉讼
  • Sora
  • GPT-4
  • 记忆与隐私
  • Q*
  • GPT-5
  • $7 万亿美金的募资
  • Google and Gemini
  • 跨越到 GPT-5
  • AGI
  • 外星人

我肝了一晚上,精翻。由于本次对话过长,略去英文原文。

Part 1:OpenAI 董事会之争

Lex Fridman:

请你带我了解一下从11月16日星期四开始的,或者对你来说是11月17日星期五的 OpenAI 董事会那一连串的事件。

Sam Altman:

那确实是我一生中最痛苦的职业经历,混乱、羞耻、心烦,还有很多其他的负面情绪。当然也有不少好的方面,但我当时被肾上腺素冲得头昏眼花,没能停下来好好欣赏它们。我翻看了那个时期自己发的一条旧推特,感觉就像在读自己的悼词,看着别人对你说出的那些美好的话,感受到来自我所爱和在乎的人的难以置信的支持。那真的非常美妙。那整个周末,除了一个很大的例外,我感觉到了浓浓的爱意,几乎没有仇恨,尽管当时感觉自己完全搞不懂正在发生什么,接下来会发生什么,整个人感觉非常糟。确实有些时候,我以为这可能会成为AI安全领域发生的最糟糕的事情之一。不过,我也觉得,它发生得相对较早是件好事。我曾想,从OpenAI成立到我们创造出AGI,中间肯定会有些疯狂爆炸的事情发生,而且未来也许还会有更多疯狂爆炸的事情发生。不过,我认为这次经历增强了我们的韧性,为未来可能遇到的更多挑战做好了准备。

Lex Fridman:

但你有没有预感到,你可能会经历某种权力的角逐?

Sam Altman:

通往 AGI 的道路肯定会充满激烈的权力角逐。世界会……嗯,不是会,我是说我预计这就是未来的景象。

Lex Fridman:

所以你必须得经历这个过程,正如你所说,要尽可能频繁地迭代,弄清楚如何构建董事会的架构,如何进行组织管理,如何选对合作伙伴,以及如何有效沟通,目的是为了尽量减少权力斗争。

Sam Altman:

没错

Lex Fridman:

放轻松

Sam Altman:

但现在,那感觉像是一段已经过去的时光,曾经非常艰难、痛苦,难以忍受,但我们又回到了工作岗位,事情忙得不可开交,强度巨大,以至于我并没有太多时间去回想那段经历。那之后有一阵子,可能是一个月左右,或者说 45 天之后,我仿佛处于一种恍惚状态,每天都感觉自己像漂流瓶一样,茫然四顾。我的精神完全崩溃了,情绪也陷入了极度低落。

Lex Fridman:

就在个人心理层面上?

Sam Altman:

是的,非常痛苦。而且在那种情况下还得坚持管理 OpenAI,难度真的很大。我只想找个洞穴钻进去,好好休养一阵子。不过现在,我们又回到了奋战在我们的使命上。

Lex Fridman:

嗯,对于你这样有极高潜力打造 AGI 的人来说,回过头去反思董事会架构、权力动态、公司运作方式、研究与产品开发之间的张力、金钱等因素,无疑是有益的。这样一来,未来你在建立 AGI 的道路上,可以更加有条不紊,少一点戏剧性冲突。所以,不妨去那儿走一遭,不仅是为了你作为领导者的个人心理层面的成长,同时也是为了搞清楚董事会结构和所有那些复杂混乱的事务。

Sam Altman:

我确实从中学到了许多关于组织结构、激励机制以及我们对董事会的期望。在某种意义上,这种情况现在发生我觉得还是有它的价值的。我认为这可能不是 OpenAI 最后一次面对如此大的压力,但这无疑是一个相当紧张的时刻。我的公司差点就垮了。除了考虑很多其他我们必须为 AGI 准备好的事情外,思考如何打造一个有韧性的组织、如何构建一个能承受世界压力的结构体系,我认为这非常关键。

Lex Fridman:

你能感觉到董事会在决策过程中的深度和严格程度吗?能否透露一下这种情形下涉及的人与人之间的动态是怎样的?是不是就几次对话后事态突然激化,然后就有人说“为什么不开除 Sam”这种话?

Sam Altman:

我觉得董事会成员整体而言都是出于好意的人,我相信在那种压力重重,时间紧迫的情况下,人们能够理解并会作出非最佳的决定。我认为 OpenAI 面临的一个挑战是,我们必须组建一个在压力之下依然能够高效运作的董事会和团队。

Lex Fridman:

你觉得董事会的权力过大了吗?

Sam Altman:

我觉得董事会理应掌握重要的权力。但是,我们注意到,在大多数公司架构中,董事会通常需要对股东们负责。有时候,人们可能持有一些特殊的投票权股份。在这个情况下,我觉得对于我们的架构来说,一个我们或许应该更深入思考的问题是,如果不特别制定规则的话,非营利组织的董事会实际上掌握着很大的权力。他们并不真正向任何人负责,除了他们自己。这样有它的好处,但我们更希望的是 OpenAI 的董事会能够对全世界负责,尽管我们知道在实践中这可能很难做到。

Lex Fridman:

所以他们宣布成立了一个新的董事会。

Sam Altman:

嗯,对。

Lex Fridman:

刚开始是一个新的小型董事会,现在又换成了新的正式董事会?

Sam Altman:

我们的董事会还没有最后敲定。我们已经添了一些成员。接下来还会继续增加。

Lex Fridman:

加了一些。好的。在新版本里修复了之前版本哪些可能出现的问题呢?

Sam Altman:

旧董事会在大约一年时间里逐渐缩减了。起初是九个人,后来减到六个,接着我们在增补新成员上意见不统一。我觉得董事会中也缺乏经验丰富的成员。而现在 OpenAI 的新董事会成员们都有着更多的董事会工作经验。我认为这会有所改善。

Lex Fridman:

这个问题受到了不少批评,比如有人对拉里·萨默斯被加入董事会表示不满。你们挑选董事会成员的过程是怎样的?这个过程中涉及哪些因素?

Sam Altman:

那个周末,Brett 和 Larry 的决定在一连串紧张气氛中做出了,那真是个情绪起伏的过山车周末。我们在波折中努力协商,希望确定新董事会成员,这些人选要得到这里的执行团队和老董事会成员的双重认可。其实,Larry 就是老董事会推荐的人之一。至于 Brett,我记得在那疯狂周末之前,我就提过他,但他当时太忙了,没兴趣。之后,我们迫切需要支持,在 [ 不清晰 00:09:22] 时更是如此。我们也考虑了很多其他人选,但我感觉如果我要重返岗位,就必须换上新的董事会成员。我认为自己无法再次与原来的董事会以同样的方式合作,虽然我们最终还是决定,也深表感激 Adam 能够留下。但在各种可能的配置下,我们最终决定要组建一个三人董事会,并在极短的时间内找到两名新董事会成员。

所以那些决策实际上是直接做出的……在战场上就是这样,你没办法去设计一个严格的流程。但对于之后加入的新董事会成员,以及未来我们还会继续增加的成员,我们确实设立了一些重要的标准。我们希望董事会能够涵盖不同的专业领域。招聘执行官的时候你可能只需要他们在一个岗位上做好,但对于董事会而言,它们需要在治理和思考方面表现出全方位的能力。Brett 说过一句我特别认同的话,那就是我们希望以整批的方式招募董事会成员,而不是一次聘用一个人。我们努力要实现的是吸纳一批人,他们能够带来非营利组织方面的专业知识、企业运营的专长,以及扎实的法律和治理专业知识。

Lex Fridman:

那么,董事会成员个人的技术水平重要吗?

Sam Altman:

不是每个董事会成员都需要这样做,但肯定有些人是必须的。这正是董事会职责的一部分。

Lex Fridman:

人们可能还不太了解 OpenAI 的有意思的一面,我自己肯定也不够了解,那就是运营业务的所有那些细枝末节。当人们想到董事会,再想到那些戏剧化的元素,他们首先想到的是你。他们会思考,如果你们开发出通用人工智能(AGI)或者其他一些具有巨大影响的产品,并且成功将它们推向市场,那么你和董事会之间会有怎样的对话呢?他们还会考虑,在这种场景下,要组建一个怎样的团队来进行决策和讨论?

Sam Altman:

你看,我认为董事会里肯定需要一些技术专家。同时,也需要那些会考虑到:“我们怎样部署这项技术才能最大限度地造福人类?”的人。还需要那些有着截然不同视角的人。我想,像你我这样的人可能会犯的一个错误就是以为只有技术上的理解才是关键,这确实是你希望董事会讨论的内容之一,但还有很多其他方面,比如这项技术将如何影响社会和人们的生活,这些你也同样希望能够在董事会中得到体现。

Lex Fridman:

你是在审查他们过去的成就记录,还是只是跟他们进行交流?

Sam Altman:

过去的业绩确实很关键。你当然会有很多对话,但在某些角色上我会完全不去看过去的业绩,只看他的上升势头,忽略掉 Y 轴的截距。

Lex Fridman:

谢谢你。感谢你用数学的方式向观众阐明问题。

Sam Altman:

作为董事会成员,我确实更在乎 Y 轴截距。在这方面,我觉得对于过往业绩的记录能说的深入之处很多,而且经验是一种很难替代的东西。

Lex Fridman:

你是尝试用一个多项式函数还是指数函数来拟合这个成绩记录?

Sam Altman:

这个比喻有点牵强。

Lex Fridman:

好的,你之前提到了那个周末经历的一些低谷时刻。在心理上,你都遇到了哪些挫折呢?你有没有想过干脆去亚马逊雨林,尝试一下阿亚瓦斯卡(一种致幻剂),然后就此隐匿天涯呢?

Sam Altman:

这段时间真的很糟糕。不过也有一些非常棒的时刻。我的手机简直要爆炸了,一直收到来自我日常工作的伙伴们,以及那些十年未见的老朋友们发来的暖心信息。我应该更加珍惜这些时刻,但当时我忙于应对危机,没能充分感受到这份温暖,不过这确实让人感到很棒。总体而言,那个周末还是非常痛苦的。它就像是一场在公众视线中打响的战斗,出乎意料地让我筋疲力尽,远比我预期的要累。通常争斗本就令人筋疲力尽,而这场尤其如此。董事会在周五下午做了这个决定。我真的很难获得任何答案,但我也觉得,既然董事会有权这么做,那么我就应该花点时间好好想想我接下来想要做什么。不过,我会试着在这件事中寻找隐藏的幸运。

我当时心想,我的目前职位在 OpenAI,或者至少过去是,负责运营一个规模相当大的公司。我一直最喜欢的部分就是与研究者们共事。然后我就在想,对,我完全可以去从事一项高度聚焦的 AGI 研究工作。这个想法让我感到很兴奋。当时我甚至没意识到,所有这些努力可能会化为泡影。那是在一个星期五的下午。

Lex Fridman:

所以你已经接受了这一的终结……

Sam Altman:

非常快,真的非常快。我确实经历了一段时间的迷茫和愤怒,但这种状态转瞬即逝。到了周五晚上,我已经在跟人讨论下一步该怎么做,而且我对此感到振奋。我记得是周五晚上,我首次听到我们执行团队的人说:“嘿,我们将会反击。” 然后,我带着兴奋的心情上床睡觉了,心想,向前冲。

Lex Fridman:

你能睡着吗?

Sam Altman:

不多。有一段蛮奇怪的时期,大概四天半吧,我几乎没怎么睡觉,也没怎么吃东西,但是依然精力充沛。你会在战时了解到一些关于肾上腺素的奇特现象。

Lex Fridman:

所以你已经接受了,这个被你视为孩子的 OpenAI 会有失败的一天。

Sam Altman:

我当时对那个新东西特别激动。就那么想着,“行吧,这玩意儿确实疯了点,但管它呢。”

Lex Fridman:

这真是个很棒的应对策略。

Sam Altman:

那天周六早上,两位董事会成员给我打电话说,“嘿,我们并不是想搅局。我们不打算在这里大把存储价值。我们能谈谈你回归的事情吗?”起初,我真的不想回去,但后来我又仔细思考了一番,我意识到我非常关心这里的人,我的合伙人和股东们。我爱这家公司。于是,我想了想,对他们说:“好吧,不过我有我的条件。”而那整个周末,是最让人痛苦的时刻,我不断地反思,也被告知,而且不只是我,我们整个团队都在想,我们正在努力维持 OpenAI 的稳定,而此时全世界似乎都在试图将其分崩离析,到处都有人在尝试挖角。

我们一直被告知,“好了,我们快要弄完了。我们快要完成了。我们只需要再多一点点时间。”这让人非常困惑。直到周日晚上,我几乎每隔几小时就会以为我们就要结束了,我们能找到方法让我回去,让一切恢复原状。但董事会随后任命了一位新的临时CEO,那一刻我感觉真的很难受。那是整件事中最低谷的时刻。我跟你说,虽然感觉非常痛苦,但我在那整个周末都感受到了很多爱。除了那个周日晚上的瞬间,我不会说我的感受是愤怒或恨,相反,我感受到了来自人们的爱,也对他们满怀爱意。那很痛苦,但那个周末的主导情绪是爱,而不是恨。

Lex Fridman:

您曾对 Mira Murati 给予高度评价,说她在那些关键的、平静的时刻给予了特别的帮助,就像您在推文中提到的那样。或许我们可以稍微绕个弯。您最欣赏 Mira 的什么特质呢?

Sam Altman:

她在那个周末的混乱中表现得非常出色,但人们往往是在危机时刻,无论好坏,才会关注领导者的表现。然而,我真正看重的是,在一个平凡的周二早上 9 点 46 分,在日常的平淡和繁琐中,领导者如何行动。一个人怎样出席会议,他们作出决策的质量如何。这就是我提到的“静默时刻”的含义。

Lex Fridman:

绝大多数的工作都是日复一日,在一次次会议中慢慢推进的。只需要聚精会神,做出优秀的决策就行了。

Sam Altman:

是的,看吧,你想要花费过去二十分钟探讨的那件事——我明白——是关于那个非常戏剧化的周末,但那并不是 OpenAI 的核心所在。OpenAI 的重心实际上在于其余的七年。

Lex Fridman:

嗯,对。人类文明可不止是纳粹德国侵略苏联这档子事,但这依旧是大家特别关注的焦点。

Sam Altman:

没错

Lex Fridman:

这为我们提供了洞察人性的窗口,包括人性的极致以及或许正是在那些时刻,人类文明的某些毁坏和伟大成就得以显现,因此这非常具有启发性。

Part 2:Ilya Sutskever 去哪了

Lex Fridman:

那么关于 Ilya 的问题,我可以问你吗?他是不是被关在某个秘密核设施里作为人质?

Sam Altman:

No

Lex Fridman:

那么普通的秘密基地呢?

Sam Altman:

No

Lex Fridman:

一个不涉密的核设施怎么样?

Sam Altman:

肯定也不是

Lex Fridman:

这事儿已经有点成梗了。你跟 Ilya 认识很长时间了对吧。他显然卷入了那场董事会的风波。现在你俩的关系怎样?

Sam Altman:

我非常喜爱 Ilya,对他也有着极大的敬意。关于他的计划,我现在真的没什么可以透露的。这应该由他来回答。不过,我真心希望我们能够持续合作,至少在我的职业生涯剩余时光里。他比我年轻那么一点,也许他会比我工作更长久一些。

Lex Fridman:

有个流传的段子说,他看到了一些东西,好像是他看到了AGI,这件事让他内心充满了忧虑。Ilya 到底看到了什么?

Sam Altman:

Ilya 从来没有见过通用人工智能(AGI)。我们任何人都还没有。我们也还没造出通用人工智能。不过,伊利亚身上有很多让我敬佩的品质,其中一个就是他非常重视关于通用人工智能及其广泛的安全问题,这包括它可能对社会造成的影响。随着我们不断地取得显著进展,这几年我最多的时间都是和伊利亚一起讨论这将意味着什么,我们需要怎么做才能确保做得正确,以保证我们的使命能够成功完成。所以,虽然伊利亚没有见过 AGI,但他对确保我们在这个过程中行得正、走得稳的深思熟虑和忧虑,对人类来说是一份宝贵的贡献。

Lex Fridman:

我过去与他有过不少交流。我觉得,每当他谈到技术,他总是持有一种长远的思考方式。他不太关心一年内会发生什么,而是在想象10年后的情况,基于首要原则去思考:“好的,如果这东西真的能够扩展开来,那么基本要素是什么呢?会有哪些发展?”这种思考方式为他们在关注所有的安全问题等方面打下了坚实的基础,这也让和他对话变得非常吸引人。你了解他为何近来鲜有发声吗?他是不是在做些灵魂深处的思索呢?

Sam Altman:

再说一次,我不想代表 Ilya 发言。我觉得你应该亲自去问问他。他绝对是个思考深刻的人。我认为 Ilya 始终在以非常积极的方式进行灵魂探索。

Lex Fridman:

是的,对。他还真懂得沉默的魅力。我听说他其实挺逗的,不过我个人还没机会见识过这一面。

Sam Altman:

当那种情况发生时,感觉真的很温馨。

Lex Fridman:

我还没遇到过傻傻的 Ilya,不过我也挺期待这一天呢。

Sam Altman:

我最近和他一起去了个晚宴,他当时正在和一只小狗玩,心情非常轻松、嬉皮,真的很让人觉得亲切。我当时就想:哇~这面是 Ilya 不太给外界看到的。

Lex Fridman:

那么,就这整桩事情而言,你对董事会的架构满意吗?

Sam Altman:

Yes

Lex Fridman:

… 关于这一切及其走向,你有何看法?

Sam Altman:

我对新董事会的组建感到非常满意。在 OpenAI 的架构方面,董事会的职责之一就是进行审视,看看我们如何能够加强其结构的韧性。我们的首要任务是先确定新的董事会成员,但显然在这个过程中,我们对结构的认识有了显著的进步。我认为我没有什么特别深刻的见解。这是一段极其混乱和痛苦的经历。我觉得这就像一场怪异的完美风暴。这对我来说预示着未来的挑战,随着赌注的不断升高,我们需要有更为强健的治理结构、流程和团队。我很庆幸这一切在我还年轻时发生,但实际上这是一次异常艰难的经历。

Lex Fridman:

这会不会使你在信任别人方面变得更加犹豫呢?

Sam Altman:

Yes

Lex Fridman:

就个人而言?

Sam Altman:

是的,我自认为是一个极度信任他人的人。我一向坚持的人生哲学是:不必太过担忧,不必在意那些偏执的疑虑和极端的可能性。这样做的代价可能是偶尔吃点小亏,但作为回报,你得以放松警惕地生活。然而这件事对我来说真的是晴天霹雳,我措手不及,它确实改变了我。我并不喜欢这种改变,但它确实影响了我对于对人默认信任的态度以及对潜在坏情况的规划。

Lex Fridman:

你得在这方面多加留心。你担心自己会变得过于愤世嫉俗吗?

Sam Altman:

我不害怕自己会变得过于愤世嫉俗。我觉得我本性里就很不愤世嫉俗,但我担心,自己可能逐渐丧失那种对别人的本能信任。

Lex Fridman:

我其实还没把握好,对于那些正致力于开发通用人工智能的人而言,是信任模式更为适宜,还是持怀疑态度更好。这条路你走得真有意思。不过说到架构,我其实更关注人这一层面。你怎么做到让自己周围都是那些既在打造酷炫东西,又能作出睿智选择的人?因为你挣的钱越多,这件事的影响力也就越大,周围的人就越发变得诡异。

Sam Altman:

我觉得你完全可以就董事会成员的问题,以及我应该给予的信任程度,或者说我应该采取不同的做事方式提出种种意见。但如果说到这里的团队,我相信你会给我一个非常高的评价。对于那些我每天都要共事的人,我心中充满了巨大的感激、信任和尊重。我认为,让自己被这样的人包围是极其重要的。

Part 3:Elon Musk 的诉讼

Lex Fridman:

我们共同的朋友 Elon Musk 起诉了 OpenAI。在你看来,他批评的核心问题是什么?他有多少批评是站得住脚的?又有多少是误会或不对的?

Sam Altman:

我真的不清楚这到底是怎么一回事。最初,我们只认为自己将成为一个研究实验室,对这项技术未来的发展毫无头绪。那是七八年前的事了,现在想回忆起当时的情况真的很难,那个时候语言模型还没成为热门话题。我们甚至还没想到要开发一个 API 或者卖聊天机器人的访问权限。我们也没有想过要将其产品化。当时我们的想法就是,“我们就去做研究吧,至于研究成果能用来做什么,我们并不清楚。” 我想在探索完全新颖的事物时,你总是摸着石头过河,制定一些假设,而这些假设大多数最终都被证明是错误的。

接着,我们意识到我们需要做出一些不同的事情,并且需要巨额的资本。所以我们就在想,“行吧,当前的结构显然不太合适。我们该怎样去补救?”补了一次又一次,最终我们得到的东西确实让人不禁挑挑眉毛,至少可以这么形容。不过,我觉得我们在每一步都做出了合理的决策。这并不是说如果能有机会回到过去,有个先知在旁边指导,我就不会选择完全不同的做法。不过,当时我们手边可没有先知。不管怎样,至于埃隆真正的动机是什么,我真的不清楚。

Lex Fridman:

在 OpenAI 的博客文章中,他们给出的回应主要集中在为什么他们认为不应该继续推出完整版 GPT-3 API 的理由。他们提到了对模型潜在被滥用的担忧,以及他们认为现阶段需要加强监管和提高透明度。此外,他们也谈到了对于 AI 长期影响的责任感,并表示愿意与其他机构合作,确保 AI 的使用是安全和有益的。

Sam Altman:

哦,我们刚刚提到埃隆表达了一系列看法。这里是我们的陈述,或者说不是我们的陈述。这是对事件经过的一个描述。我们试图不带入个人情绪,只是陈述,“这就是历史。”

Lex Fridman:

我觉得 Elon 对你刚才提到的一点有些误解,也就是你们当时所面临的不确定性有多大。你们只是一帮小研究团队,疯狂地讨论着 AGI,而那时候,所有人都觉得这个想法很可笑。

Sam Altman:

Elon 不久前还在疯狂地谈论发射火箭,那时候大家都对这个念头嗤之以鼻,所以我觉得他对这件事会有更多的共鸣。

Lex Fridman:

我确实认为这里面有一些个人的因素。OpenAI 和这里的很多了不起的人决定与 Elon Musk 分道扬镳,因此存在一些个人层面的-

Sam Altman:

Elon 选择了离开

Lex Fridman:

你能具体说说吗?那种选择分道扬镳的情形?

Sam Altman:

他觉得 OpenAI 快要失败了。他想要完全控制权来挽救局面。但我们想要继续沿着现在 OpenAI 所走的方向前进。他还想要特斯拉能够开展一个 AGI (人工通用智能)项目。他在不同时间点有过多种想法,包括把 OpenAI 变成一个他能控制的盈利性公司,或者是让它与特斯拉合并。我们并不同意这样做,于是他决定离开,这也挺好的。

Lex Fridman:

所以你的意思是,正如那篇博客文章里提到的,他想要的是 OpenAI 能像被特斯拉收购那样,或许是与微软的合作方式有点相似,或者说可能是一种更为戏剧化的形式。

Sam Altman:

我的记忆里,那个提议就是这么回事,就是说,被特斯拉收购,然后让特斯拉完全掌控它。我很确定提议就是这个意思。

Lex Fridman:

当时,Elon,OpenAI 中的 “open” 对你意味着什么?Ilya 在邮件往来中已经谈论过这个话题。那时候它对你意味着什么?现在又是怎样的意义呢?

Sam Altman:

说到如果能带着一个“神谕”重来,我可能会选一个不同的名字。OpenAI 正在做的众多事情中,我认为最重要的就是免费地将强大技术交到人们手中,作为一项公共福利。我们不在我们的服务上投放广告——

Sam Altman:

作为公共利益的一部分,我们没有在免费版本中投放广告,也没有通过其他途径来盈利。我们的出发点只是我们的使命 —— 免费为人们提供越来越强大的工具,并且让他们去使用。我觉得这样的开放对我们的愿景至关重要。如果我们能够提供优秀的工具,让人们学会使用,或者他们甚至可以自学成才,然后用这些工具为彼此打造一个美好的未来,这将是意义重大的。所以,如果我们能持续向世界提供免费或低成本的强大 AI 工具,这将极大地推进我们的使命。至于是否开源,嗯,我认为我们应该对一些东西开源,而对其他的则不必。这件事往往会变成一种信仰之争,很难保持中立,但我相信寻找平衡点才是正确的做法。

Lex Fridman:

所以他就跟我说:“如果你们把名字改成 CloseAI ,我就撤销诉讼。” 我是说,难道这就要成为一个围绕名字的梗,在这片战场上互相对决了吗?

Sam Altman:

我觉得这体现出 Elon 提起诉讼的严肃态度,说实话,这种说法真是让人吃惊。

Lex Fridman:

你要是觉得我错了就纠正我,但我个人觉得这场官司在法律上并不算严重。它更多的是在向人们传递一个关于未来通用人工智能(AGI),以及目前在这个领域领先的公司的信息。

Sam Altman:

看,我的意思是,在人们指出这样做有点伪善之前,Grok 是没有开源过任何东西的。然后,他宣布 Grok 将在本周开始开源一些东西。我认为对他来说,这件事并不仅仅是关于是否开源的问题。

Lex Fridman:

嗯,我们会讨论一下开源和非开源的话题。我倒是觉得,批评一下竞争对手挺好的,适当地说点坏话也无妨。但这得是建立在友好竞争的基础上,比起来,我个人真是非常讨厌打官司。

Sam Altman:

“看,我认为整个事情对于一个建造者来说是不应该的。我尊敬埃隆,他是我们时代最伟大的建造者之一。我知道他清楚地感受过被那些仇恨者攻击的滋味,这让我看到他这样做时更加感到悲哀。”

Lex Fridman:

是的,他可以说是史上最杰出的创造者之一,甚至可能是有史以来最卓越的建设者。

Sam Altman:

这让我感到悲伤。我觉得很多人也有同样的感受。一直以来,有那么多人仰慕他。我在某个访谈里说过,我怀念曾经的 Elon,结果收到了好多回信,他们都说:“你的话完全表达了我的心声。”

Lex Fridman:

我觉得他就应该赢。他应该让 X Grok 打败 GPT,然后 GPT 又反过来打败 X Grok,就这样互相竞争,对大家来说都是一件美事。但说到开源的话题,你认为有很多公司在探索这个概念吗?这挺有意思的。我倒觉得 Meta 出乎意料地在这个领域走在了前面,或者至少在这场棋局中,它是第一个真正开放源码的。当然了,他们开源的并不是最尖端的模型,不过他们开源了 Lama。谷歌也在考虑开放一个规模较小的版本。开源有什么优缺点?你自己有没有思考过这个问题?

Sam Altman:

是的,我确信开源模型绝对有其立足之地,尤其是那些人们可以在本地执行的体积较小的模型,这方面确实存在巨大的需求。我想未来会出现一些开源模型,也会有一些闭源模型。这一点上,它并不会与其他生态系统有所不同。

Lex Fridman:

我听了所有关于这起 诉讼 和其他类似 事情的 播客。他们更加关注的 是, 从非盈利到设定 盈利上限 这一变化所树立的 先例 对其他 初创企业 会有什么影响?这会是一个怎样的——

Sam Altman:

我强烈不建议任何想要先作为一个非盈利组织起步,之后再加入盈利性分支的创业公司这么做。我真的非常不推荐这种方式。我觉得我们这里也不会创造这样一个先例。

Lex Fridman:

好的。那么大多数初创公司应该只是——

Sam Altman:

当然可以。

Lex Fridman:

还有一点 ——

Sam Altman:

如果我们知道会发生什么,我们肯定也会那么做的。

Lex Fridman:

嗯,理论上来说,如果你在这里的舞跳得够美,或许能享受到一些税收优惠之类的东西,但是……

Sam Altman:

我觉得大部分人对这些事情的看法不是这样的。

Lex Fridman:

如果你这样做,创业公司根本不可能省下一大笔钱。

Sam Altman:

不,我觉得有些法律会让这件事变得相当棘手。

Lex Fridman:

你期望与 Elon 之间的关系如何发展?这种紧张、这场舞蹈,你希望它会怎样?假如从现在起向前看1、2、3年,你和他在私人层面上的关系——像是友情、友好竞争,以及所有这些互动。

Sam Altman:

是的,我非常尊敬 Elon,我希望在未来的岁月里,我们能保持一段友好的关系。

Lex Fridman:

是的,我希望你们这个月能够保持友好的关系,一起在竞争中取得胜利,共同探讨这些有趣的理念。我猜会有些关于人才或其他方面的竞争吧,但关键是要保持友好竞争的氛围。就去创造一些酷炫的东西吧。埃隆在这方面确实很在行,你也不赖。

Part 4:Sora

Lex Fridman:

讲到厉害的玩意儿,Sora 真的很吸引人。我有一百万个问题想问你。首先,它的确令人称奇,无论是在产品层次上,还是在哲学层次上。那么我就从技术/哲学的角度来提问吧,你认为它比如说相比于 GPT-4,在理解世界这方面是更胜一筹还是稍逊一筹呢?在训练这些补丁时,它对世界模型的理解与仅仅基于语言标记有什么不同吗?

Sam Altman:

我觉得这些模型对世界模型的理解,实际上比我们多数人给予的认可要深。因为它们对某些事情的理解是如此的清晰明了,它们对其他事情的无知或错误就显得尤为突出,人们很容易一眼看穿它们的不足,然后说:“啊,这全是假的。” 但实际上并非全是假象。有些部分是有效的,有些部分则不然。

我还记得第一次看 Sora 视频时的情景,你会看到有人走过来,挡住画面几秒钟后又走开,而被遮挡的东西依旧在那儿。我当时就想,“噢,这效果挺不错的。”或者,有时候,你能看到它展现出一系列动作中物理规律的那种精准,真的让人印象深刻。但说到底,这些模型只会越来越强大,这种进步还会继续。如果你关注一下从 DALL·E 1 到 2 再到 3,再到 Sora 的发展轨迹,会发现有很多人在每一个版本上都曾嘲讽,说它做不到这个,做不到那个,但现在看看它的表现吧。

Lex Fridman:

嗯,你刚才提到的遮挡问题,其实就是要对世界的三维物理现象建模,而且要做得足够好,才能捕捉到这类情况。

Sam Altman:

嗯……

Lex Fridman:

你可以跟我说说,为了应对遮挡问题,世界模型需要做什么呢?

Sam Altman:

我想说的是,它在处理遮挡方面表现得相当出色。而说它背后有一个很强大的三维世界模型,这个说法就有些牵强了。

Lex Fridman:

但你觉得仅凭这些二维训练数据的方式就能达到那个目标吗?

Sam Altman:

看起来这种方法能出乎意料地走得很远。我不太想去猜测它能克服哪些限制,哪些又不能,不过……

Lex Fridman:

你发现了系统的哪些有趣局限性?我的意思是,你分享过一些挺有趣的例子。

Sam Altman:

有各种各样的有趣现象。比如,视频中的猫咪在任意位置突然长出一条额外的肢体。你可以随意挑选,但现在仍然存在许多问题,有很多弱点。

Lex Fridman:

你觉得这是这种方法根本上的缺陷呢,还是说只要有更大的模型、更细致的技术处理或者更高质量、更多量的数据,就能解决“猫发芽”这类问题?

Sam Altman:

我对这两点都持肯定态度。我认为这种方法给人的感觉与我们通常的思考和学习方式大相径庭。同时,我也相信随着规模的增加,它的效果会进一步提升。

Lex Fridman:

就像我提到的,LLMS 有 token,文本 token,而 Sora 则有视觉 patch。它把所有的视觉数据,包括各种不同的视频和,都转换成了 patch。训练过程可以说完全是自监督的吗?还是会涉及到一些手动标注的工作?在整个过程中,人的参与程度是怎样的?

Sam Altman:

我是说,不详细谈论 Sora 的方法,我们的工作就已经利用了大量的人类数据。

Lex Fridman:

但不是互联网级别的数据量吗?这就意味着需要大量的人力。Sam,”大量”这个词可不简单。

Sam Altman:

我觉得在这种情况下用“很多”这个词挺合适的。

Lex Fridman:

因为对我来说,“很多”嘛……你听我说,我是个内向的人,要是和三个人一起出去,对我来说人就已经够多的了。要是四个人,那简直就是超负荷了。不过我猜你指的“很多”可能是比这……

Sam Altman:

对,确实是有不止三个人在给这些模型做数据标注工作。

Lex Fridman:

好的,对。但归根到底,有大量的自监督学习。就像你在技术报告里提到的,我们处理的是互联网规模的数据。这实在太美妙了……它就像诗。也就是说,这些数据并非由人工标注,可以认为是以这种方式自监督的吗?

Sam Altman:

嗯,对。

Lex Fridman:

然后问题在于,互联网上到底有多少数据可以用于这种自我监督学习的方式,只要我们能弄清楚自我监督的具体细节。你有没有考虑过,更进一步公开这些细节?

Sam Altman:

我们有的。你是特指信息的来源吗?

Lex Fridman:

出处特别指出。因为很有趣,那些让语言模型如此神奇的元素现在能否开始转向视觉数据呢?而这一过程需要怎么做呢?

Sam Altman:

我感觉是这样没错,不过我们还得加把劲,干更多的活儿。

Lex Fridman:

当你这么问的时候,是在担心些什么呢?为什么会对发布这个系统感到忧虑?可能会有哪些潜在危险?

Sam Altman:

我是说,坦白讲,在发布系统之前,我们必须确保它的效率达到人们期望的规模,这样才能确保系统能够正常工作,这一点我不想轻描淡写。在这方面还有大量的工作需要完成。但你可以想象到,像深度伪造、错误信息这样的问题。我们试图作为一家深思熟虑的公司去思考我们推向世界的产品,你不用费太多心思就能想到这些事情可能怎么走向不好的方向。

Lex Fridman:

在这里我们面临很多棘手的问题,你所处的领域非常艰难。你觉得按照版权法,训练人工智能算不算公平使用呢?

Sam Altman:

我觉得这个问题的底层问题是,创造有价值数据的人们是否应该得到某种形式的经济补偿,因为他们的数据被利用了。我认为答案是肯定的。我目前还不清楚具体的解决方案是什么。人们提出了各种各样的点子,我们也尝试过一些不同的模式。但打个比方,如果我是一位艺术家,A,我会希望有选项可以让别人不使用我的风格来创作艺术作品。而且,B,如果别人确实用了我的风格来创作,我希望这背后能有一套经济模式来确保我的利益得到体现。

Lex Fridman:

是的,就像是从 CD 到 Napster,再到 Spotify 的那种转变。我们得找出一种可行的模式。

Sam Altman:

模型会变,但人们得拿到钱。

Lex Fridman:

好吧,如果我们把视角再拉得更远一些,应该有某种动力激励人类继续去做那些牛逼的事儿。

Sam Altman:

在我所担心的一切中,我相信人类会创造出非常酷的东西,并且社会终将以某种方式来奖励这些创造。这似乎已经深植于我们的本性之中。我们渴望创造,我们渴望证明自己的价值,我们希望以各种方式来获取认同和地位。我认为,这些特质是不会消逝的。

Lex Fridman:

但回报可能不是金钱上的利益,而可能是名望或是对其它酷事的认可和赞誉。

Sam Altman:

也许在金融方面还有其他方式。我再次强调,我认为我们还未见到经济系统发展的最终模式。

Lex Fridman:

是的,不过艺术家和创作者们都挺担心的。当他们看到 Sora,他们就会惊呼,“我的天哪。”

Sam Altman:

艺术家们在摄影问世的时候也是非常忧心忡忡的,后来摄影却演变成了一种全新的艺术形式,有人通过摄影赚到了大钱。我相信类似的事情还会不断上演。人们会不断地用新工具探索新的创作方式。

Lex Fridman:

如果我们只是随便在 YouTube 或者类似的平台上搜一搜,你觉得在接下来的五年里,会有多少内容是由类似 Sora 这样的 AI 生成的呢?

Sam Altman:

人们总是在讨论,五年内人工智能会取代多少工作岗位。他们的出发点通常是,目前的工作中有多大比例会完全被人工智能所替代?但我个人的看法并不是围绕人工智能会做多少份工作,而是在未来某个时间点,它们能执行多少种任务。想一想,经济活动中的所有五秒钟、五分钟、五小时乃至五天的任务,有多少是人工智能可以完成的?我认为,这个问题比单纯问人工智能能取代多少工作要更加有意义、影响深远和重要。因为人工智能是一个工具,它将在不断延长的时间跨度内、以越来越高的复杂度来执行越来越多的任务,这让人类能够在更高层次上进行抽象思考。也就是说,人们在自己的工作中可能会变得更加高效。而这种变化,随着时间的推移,不仅仅是量的改变,它还意味着质的变化——我们能在脑海中构思何种问题。对于 YouTube 上的视频,我觉得情况也是如此。很多视频,或许是大多数视频,在制作过程中会运用到人工智能工具,但它们的核心仍然是由人来思考、构思、负责部分执行,并指导整个项目的运作。

Lex Fridman:

是的,这真的非常有趣。我是说,这确实有点吓人,但去想象这一点真的很吸引人。我倾向于认为,人类喜欢观察其他人类或者说其他有人性的生物——

Sam Altman:

人们真的很在乎彼此。

Lex Fridman:

是的,如果出现了比人类还酷、还厉害的东西,人们可能会关注两天,但之后他们又会回归去关心人类的事务。

Sam Altman:

这看起来似乎是根深蒂固的。

Lex Fridman:

这就是围绕棋局的整个问题,“哦,是的”,但现在我们还是得继续下棋。咱们得视而不见那个摆在眼前的事实:比起人工智能系统,人类下棋实在是太菜了。

Sam Altman:

我们还是会开赛车,而且现在的车速比以前快多了。我的意思是这样的例子有很多。

Lex Fridman:

是的,或许它就类似于 Adobe 套件里的一种工具,能够大大简化视频制作这些流程。

听着,我真的不喜欢站在镜头前。如果我能想出一个办法避免露面,我会非常乐意的。不过不幸的是,这可能还需要一段时间。现在我们正在研究生成面部图像的技术,虽然进展顺利,但要在视频中生成特定人物而非通用面孔,这个过程还是挺棘手的。

Part 5:GPT-4

Lex Fridman:

让我来问问你 GPT-4 的事情。问题真的好多。首先,它同样令人惊叹。回头看,GPT-3、GPT-5 和 GPT-4 这几个版本很可能会被认为是历史性的转折点,这些版本塑造了 ChatGPT。

Sam Altman:

可能第五次会成为转折点。我不确定。往前看,这真的很难说。

Lex Fridman:

我们永远也预测不了。这就是关于未来最让人头疼的事,太难以预测了。但是对我个人而言,回顾历史,GPT-4 和 ChatGPT 实在是太让人震惊了,它们在历史上都留下了深刻的烙印。那么,请允许我问你,你认为 GPT-4 和 GPT-4 Turbo 最令人印象深刻的能力有哪些?

Sam Altman:

我觉得这挺糟心的。

Lex Fridman:

典型的人呐,也是这样,很快就会习惯一件棒极了的东西。

Sam Altman:

不,我认为这确实是一件非凡的事情,但与我们所要实现的目标和我坚信我们最终能够达成的境界相比,在 GPT-3 面世那会儿,人们都说:“哦,这太令人惊叹了,简直是技术的奇迹。”的确,当时它非常了不起。但现在出现了 GPT-4,再回头看看 GPT-3,你就会觉得:“天哪,这简直糟糕透了。”我预计 GPT-5 和 GPT-4 之间的差距将和 GPT-4 与 GPT-3 的差距一样大。我觉得,我们的职责就是要领先未来几年的视野,记得我们现在拥有的工具回头看来可能会显得相当逊色,正是这种认知驱使我们确保未来变得更加美好。

Lex Fridman:

GPT-4 在哪些方面最让人失望?我的意思是——

Sam Altman:

它最擅长做些什么呢?

Lex Fridman:

它能做到的最棒的事情是什么呢?而这些事情的局限性又在哪里,让你会觉得它很差,因此又让你对未来充满了启迪和期望呢?

Sam Altman:

我最近更多地把它当作一种头脑风暴的搭档。

Lex Fridman:

是的。

Sam Altman:

它有一丝令人震惊的神奇。当人们谈起它的作用时,他们会说:“哦,它帮我提高了编程效率。它让我的写作速度更快、质量更好。它能帮我将一种语言转换成另一种。”所有这些都令人称奇,但它在创意头脑风暴方面的表现——比如,“我得给这个东西取个名字。我需要换个角度思考这个问题。我不确定接下来该怎么办”——我认为这展现了一丝令我期待已久的东西,希望将来能看到更多这样的场景。

你能略见一斑的是,当我帮助处理一些长远的任务,把它们拆解成多个步骤,然后执行其中几个,或许是上网搜索资料,或是编程之类的活儿。这个过程要是能成功,虽然并不常见,但确实感觉挺神奇的。

Lex Fridman:

与人不断地来回交流,对我来说非常有帮助。你指的是什么-

Sam Altman:

经过不断的反复与人类沟通,当它能够独立完成一个包含 10 个步骤的问题时,这样的互动就会变得更加密集。

Lex Fridman:

哦。

Sam Altman:

这通常不太常见,偶尔会有。

Lex Fridman:

增加多层次的抽象,还是你的意思只是依次进行的?

Sam Altman:

两者都很重要,既要把问题分解,也要在不同的抽象层面上进行思考,然后将这些思考重新组合起来。你看,我并不是想小看 GPT-4 所取得的成就,但同时我也不想过分夸大其重要性。我认为,我们正处于一个指数增长的曲线上,不久之后,我们会像现在回望 GPT-3 一样去回顾 GPT-4。

Lex Fridman:

这么说吧,我是说 ChatGPT 成了一个转折点,外界开始逐渐相信 OpenAI 内部已经有了一种信念的高涨。

Sam Altman:

当然可以。

Lex Fridman:

或许这儿有些信徒,但是当你想起——

Sam Altman:

在这方面,我真的觉得这将是一个转折点,让全世界许多人从怀疑变成了信服。这更多的是和 ChatGPT 的界面有关。说到界面和产品,我的意思还包括了模型的后续训练过程,以及我们如何调优使它对你更有帮助,以及怎样使用它,而不只是底层模型本身。

Lex Fridman:

这些因素中每一个到底有多重要呢?无论是底层模型还是 RLHF,又或者是其他的什么机制,它们都在调优过程中起着关键作用,让这个系统对于人类来说更具吸引力,使用起来更高效、更富有成效。

Sam Altman:

我是说,它们都极为重要。但是 RLHF,也就是训练后的那个步骤,我们在基础模型之上进行的那些额外工作——尽管这背后需要巨大的工作量——却是至关重要的,更不用提我们围绕它打造的产品了。在某种意义上来说,我们的确需要同时做好两件事情:一是发明底层技术,二是搞清楚如何把它转化成人们爱不释手的产品。这不仅仅关乎产品本身的实际工作,还涉及到一个完全不同的阶段——怎样让产品与用户的需求保持一致,并真正发挥出它的用途。

Lex Fridman:

你是如何做到让众多用户能够同时使用这项技术的规模化效应。所有这些方面,都得仔细斟酌。

Sam Altman:

这个嘛,但那确实是个大家都知道的难题。我们明白我们必须要扩大它的规模。我们得完成两项前所未有的任务,我得说这两个任务都是非常了不起的成就,之后还有很多像规模扩大这样其他公司之前也经历过的挑战。

Lex Fridman:

在 GPT-4 和 GPT-4 Turbo 之间,将上下文窗口从 8K 令牌增加到 128K 令牌,会有什么样的区别呢?

Sam Altman:

大部分情况下,人们并不总是需要128这么长的上下文。虽然若我们将目光投向遥远的未来,我们可能会有几十亿的上下文长度。你可以输入你所有的信息,你的整个历史记录,它将逐渐更深入地了解你,那会非常棒。但是就目前的情况来看,人们使用这些模型的方式并不是这样的。有时候,人们可能会在一篇论文中贴上大量的代码库,不过,大多数时候模型的使用并不涉及长时间的上下文。

Lex Fridman:

我喜欢这种感觉,就像是你的 “我有一个梦想” 演说。有朝一日,你会被依据你性格的全貌或是你一生的总体来评价。这很有意思。那么,你所期望的扩展的一部分,就是一个越来越全面的背景环境了。

Sam Altman:

我记得看过一段网络视频,数字可能记错了,但是内容大致是比尔·盖茨在谈论一款早期电脑的内存容量,可能是 64K,也许是 640K 之类的。那时候,大多数内存都被用作屏幕的缓冲区。他当时似乎无法真正理解,为什么未来的世界会需要计算机有几个 GB 甚至 TB 的内存。不过实际上,你总是要跟上技术发展的指数级曲线,我们总会找出利用更先进技术的方法。所以,我现在真的很难想象,未来有一天,上下文链接扩散到十亿设备的情景会是怎样的。它们可能不会真的达到那个数字,但在效果上可能会有那种感觉。不过我知道,一旦我们拥有了这种技术,就绝不会想要回到没有它的日子。

Lex Fridman:

是的,即便是现在说十年后可能是数十亿的规模,也可能显得很愚蠢,因为到那时它可能已经达到了数以万亿计的规模。

Sam Altman:

Sure

Lex Fridman:

将会出现一些使人感觉像是拥有无限上下文的突破性进展。不过即便是 120 字符,老实讲,我也没尝试过把它推到那个极限。可能的用例包括输入整本书或书的某些部分,比如论文之类的。你见过 GPT-4 有哪些有趣的应用场景吗?

Sam Altman:

我最感兴趣的不是任何我们可以讨论的具体应用案例,而是那些将其作为任何知识工作任务的默认起点的人,特别是年轻人。令人瞩目的是它在很多方面都能做得相当不错。你可以使用 GPT-V 来帮助你编写代码,进行搜索,或者编辑论文。对我来说,最有意思的是那些直接以此为他们工作流程开端的人。

Lex Fridman:

我对很多事情也有同样的兴趣。我用它作为读书的伙伴,它帮助我思考,尤其是当我阅读那些经典名著的时候。这方面,它写得真的很出色。我发现它在讨论那些资料丰富的话题时通常比维基百科还要好。它某种程度上更加均衡、更具细节。或许这只是我的个人感受,但它激发我进行比阅读维基百科条目更深层次的思考。我不完全确定为什么会这样。

你刚才提到了这种协作。我不确定魔法究竟在哪里——是在这儿、在那儿,还是在中间某处。这一点我还真不敢确定。但有个问题一直让我担心,那就是当我开始用 GPT 处理知识性任务时,我通常得事后去核实事实,比如检查它有没有编造一些假消息。你是怎么发现 GPT 能编出那些听起来特别有说服力的假信息的呢?你又是如何确保它所提供的信息是真实的?

Sam Altman:

这显然是我们极其关注的一个领域。我觉得随着即将推出的新版本,情况会有很大的改善,但我们仍需持续努力,今年是不可能完全解决所有问题的。

Lex Fridman:

确实可怕,因为随着技术越来越好,我们越发不去做事实核对了,对吧?

Sam Altman:

我在这个问题上有点矛盾。我觉得人们使用技术的能力,其实比我们通常认为的要高明多了。

Lex Fridman:

Sure

Sam Altman:

人们似乎已经真正理解了 GPT,还有这些模型有时候会出现错误信息。如果是关乎重大任务的事情,你就必须得核实一下。

Lex Fridman:

除此之外,记者们好像并没有意识到这点。我看到有些记者只是敷衍了事地用GPT-4。这个-

Sam Altman:

我有好长一串想要吐槽记者的事,但这个问题并不排在我的批评名单之首。

Lex Fridman:

嗯,我认为更大的批评可能是记者所面临的压力和激励机制,这使得他们不得不工作得非常迅速,而采用这种方法无疑是捷径。我真心希望我们的社会能够鼓励像……

Sam Altman:

我也是。

Lex Fridman:

……像是那些需要数天乃至数周辛勤努力才能产出的深度新闻报道。还有,有些报道以一种平衡的方式来呈现新闻,它们在批评的同时也能够赞扬他人,虽然通常都是那些批评性质的内容吸引点击。而捏造事实、标题党也能轻易地获得点击量。我敢肯定,一定有不少人讽刺地说:“嗯,所有那些充满戏剧性的东西肯定带来了大量点击。”

Sam Altman:

可能吧。

Part 6:记忆与隐私

Lex Fridman:

这是关于人类文明的一个宏观问题,我非常想要探讨一下。这正是我们应该更多地去庆祝的领域。你给 ChatGPT 赋予了拥有记忆的能力,你一直在尝试处理它与过往对话的记忆问题。同时,你还让它能够关闭记忆功能。有时候我真希望我也能做到这一点——根据需要打开或关闭记忆。我猜有时酒精似乎能起到这个效果,不过我觉得它并不是最理想的方法。你在这方面有什么发现吗?比如尝试记住对话或者选择不记住这种想法的时候。

Sam Altman:

我们目前在这个领域的探索还只是刚刚开始,但我觉得人们想要的,至少我个人想要的,是一个能够逐渐认识我并且随着时间的推移越来越有帮助的模型。这还仅仅是个起点。我认为我们还有很多其他的事情需要去做,但这正是我们想要追求的目标。你会期望使用一个模型,在你的一生中或是在你使用一个系统的过程中,它可能包含了多个模型,它们会随着时间的积累变得越来越优秀。

Lex Fridman:

是啊,解决这个问题有多困难?因为目前为止它更多的是记住一些琐碎的小知识点和个人喜好等等。但是关于记忆这块怎么样呢?你难道不希望 GPT 能记得你在十一月里经历的所有麻烦和所有的那些波折,然后你就可以——

Sam Altman:

嗯,对,对。

Lex Fridman:

因为现在你显然有些在回避它。

Sam Altman:

我不仅仅希望它记得这些东西,我还想要它能整合这些经验教训,并且在将来提醒我应该如何不同地行动,或者有什么需要留意的地方。我们每个人的一生中,都在不同程度上从经验中受益,我希望我的 AI 代理也能跟随这样的经验成长。想象一下,如果我们回溯并且假设有数万亿的上下文长度可供利用,如果我能把我这一生中与任何人的每一次对话都放进去,把所有的邮件往来都输入输出进上下文窗口,每当我提出问题时都能调用这些信息,那将是非常酷的一件事。

Lex Fridman:

是的,我觉得那会非常酷。不过有时候,当人们听说这个想法时,会对隐私感到担忧。你怎么看待这个问题?随着 AI 变得更加强大,它确实需要整合你所有的经历和数据才能给出建议。

Sam Altman:

我觉得答案很简单,就是给用户选择的权力。任何我想从我的 AI 代理那里删除的记录,我都希望能够自由删掉。如果我不想记得什么事情,我也应该可以选择忘记。在我们自己的 AI 的隐私与效用之间的权衡问题上,你和我可能有各自不同的见解。

Sam Altman:

…对于 OpenAI 在隐私与实用性之间如何权衡,大家有不同的意见,这是很正常的。但我觉得解决方法很直接,就是让用户来做选择。

Lex Fridman:

但公司应该对用户的选择有较高程度的透明度。因为以往有些公司在收集用户数据时态度含糊其辞,好像默许自己可以搜集所有数据似的,他们会说:“嗯,我们收集你的所有数据是理所当然的。我们用这些数据来做广告等,都是出于好意。” 但他们对这些细节并不透明。

Sam Altman:

这绝对没错。你刚才提到,我在刻意回避那些 11 月发生的事。

Lex Fridman:

只是逗你玩。

Sam Altman:

嗯,我的意思是,我经历了一件极其创伤的事,这件事确实使我长时间无法动弹。在那段艰难的时光里,最难的工作就是要坚持不懈地继续下去,因为我必须在处于震惊和疼痛中的时候回到这里,努力把事情的碎片一点点拼凑起来,而那时候似乎没有人真正关心。我的团队确实给了我一些宽容,我也没有发挥出我平时的工作水平。但确实有那么一段时间,要同时处理这两件事真的很困难。不过,有一天早上我醒来,想到:“这确实是我遭遇的一件恐怖的事情。我可以选择永远把自己视为受害者,或者我可以告诉自己这是我一生中触及的最重要的工作,我必须回过神来继续它。”这并不意味着我在压抑自己的感受,因为有时候我会在半夜醒来,脑海里依旧会回想起那些事情,但我确实感到我有义务要持续向前走。

Lex Fridman:

这么说真是妙不可言,不过可能还有些隐性的问题存在。我比较担心的是你提到的那种信任问题,担心人们变得过于多疑,而不是天真地信任每一个人或者大部分人,凭借直觉去判断。这确实是一场复杂微妙的平衡之舞。

Sam Altman:

当然可以。

Lex Fridman:

我的意思是,我在兼职时做了一些深入探究,特别是研究了泽连斯基政府和普京政府,以及他们在战时高压环境下的种种互动。结果就是彼此之间产生了不信任,大家都开始孤立自己,对世界的看法也变得不清晰了。这是所有人都会关心的问题。你看上去似乎游刃有余,从中吸取了宝贵的教训,感受到爱,并让这份爱激励着你,这很了不起,不过这种感觉可能还会残留心间。我有一些问题想问问你,关于你直觉上认为 GPT 能做什么、不能做什么。GPT 在生成每个 token 时,似乎会分配大约相同的计算资源。那么,在这种方式中,是否有空间给予更缓慢、更连贯的思考呢?

Sam Altman:

我觉得会有一种新的思考模式出现。

Lex Fridman:

它在架构上会和我们目前看到的 LLMs 相似吗?它是不是在 LLMs 基础上增加的一层?

Sam Altman:

我能想象出不少实施这个想法的方法。不过,我认为那并不像你想要探讨的问题那么重要。你的问题是,我们是否需要一种较慢的思考模式,这种模式下,答案不需要那么迅速地得出……可以这么说,从一种精神层面上讲,你希望一个人工智能能够在面对更复杂的问题时投入更多思考,而在遇到简单问题时则能够更快地给出答案。我觉得这点很关键。

Lex Fridman:

这是不是人类的一个常有的想法,我们就应该去努力思考?这种直觉是不是有误呢?

Sam Altman:

我觉得这个直觉挺有道理的。

Lex Fridman:

有趣。那么,一旦 GPT 升级到比如 GPT-7 这样的级别,它就能瞬间找出“费马定理的证明”了是吗?

Sam Altman:

你好像是想能为那些更难的问题分配更多的计算能力。我想,如果你问这样一个系统,“证明一下费马大定理”,和问“今天是什么日期?”相比,除非它已经知道并且记住了证明的答案,要不然它得自己去琢磨出来,这看起来肯定是需要更多计算资源的。

Lex Fridman:

但它能不能看起来基本上就像一个 LLM 在自言自语,是那种感觉?

Sam Altman:

或许吧。我的意思是,你能想象出很多可能有效的事情。但关于怎么做才是最合适或者最好的方式,我们目前还不清楚。

Part 7:Q*

Lex Fridman:

这让我想起了 Q* 背后那些充满神秘色彩的传说。这个神秘兮兮的 Q* 项目究竟是什么呢?它也在同一座核设施里面吗?

Sam Altman:

没有核能设施。

Lex Fridman:

嗯,拥有核设施的人总是这么说。

Sam Altman:

我特别希望拥有一个秘密的核设施,可惜并没有这么一回事。

Lex Fridman:

好的,没问题。

Sam Altman:

也许吧,总有一天。

Lex Fridman:

有一天吧?好吧。人总得有点儿梦想,不是吗?

Sam Altman:

OpenAI 并不擅长保守秘密。如果我们能够做到的话,那就太好了。我们一直受到很多泄密事件的困扰,真希望我们能有这样的本事。

Lex Fridman:

能谈谈 Q* 是什么吗?

Sam Altman:

我们还没准备好讨论那个话题。

Lex Fridman:

看,但这样的回答意味着我们有东西可以聊了。这很神秘,Sam。

Sam Altman:

我是说,我们涉猎的研究领域五花八门。我们之前已经提过,我们认为增强这些系统的推理能力是一个重要的发展方向,是我们很想深入探索的。到目前为止我们还没彻底攻克这个难题,但我们对此充满了极大的兴趣。

Lex Fridman:

会有类似 ChatGPT 那样的飞跃性突破,或者其他类似的重大进展吗?

Sam Altman:

这个问题问得好。我怎么看这个问题呢?挺有意思的。对我来说,这整个过程看起来都是相当连贯的。

Lex Fridman:

没错。你所谈到的,似乎是一个主题,那就是你们基本上是在沿着一个指数曲线逐步攀升。但从旁观者,也就是我这个角度来看,好像确实能感觉到有些跳跃性的进展。不过在你眼里,这些并不存在吗?

Sam Altman:

我真的在思考,我们是否该……一个重要的原因是,我们采用所谓的迭代部署方式,而不是秘密开发到 GPT-5,我们决定公开谈论 GPT-1、2、3 和 4。部分原因在于我觉得人工智能与意外这两者不应该搭界。而且,无论是世界、人类、机构,或者你愿意怎么称呼它们,它们都需要时间去适应和反思这些问题。我认为 OpenAI 最明智的举措之一就是采取了这样的策略,我们让全世界都关注这一进程,正视 AGI 的重要性,考虑在我们陷入紧迫境地、不得不匆忙作出决策之前,我们需要建立什么样的系统、结构和治理模式。

我觉得这样做非常棒。但是,像你和其他人还能感受到这些巨大飞跃的事实,让我想,或许我们应该更加渐进地发布我们的产品。我现在还不确定这究竟意味着什么,也没有现成的答案,但我们的目标绝不是给世界带来令人震惊的更新,恰恰相反。

Lex Fridman:

当然,能够做得更迭代会非常棒。我觉得这样对每个人都是一件美好的事。

Sam Altman:

但这正是我们所致力于的目标,也是我们公开宣布的策略。我觉得我们在某种程度上没能达标。也许我们应该考虑换个方式来发布 GPT-5 或类似的产品。

Lex Fridman:

比如用版本号4.71、4.72?人们通常都喜欢庆祝特别的日子,比如生日。我不确定你对人类了解多少,但他们会庆祝这些重要的时刻和里程碑。

Sam Altman:

我确实认识一些人类。人们确实对里程碑情有独钟。这点我完全能理解。我认为我们自己其实也挺喜欢里程碑的。能够宣布某件事情取得了胜利,然后迈向下一个目标,这感觉真的很棒。但确实,我感觉我们在某些方面可能理解错了。

Part 8:GPT-5

Lex Fridman:

GPT-5 什么时候会推出呢?

Sam Altman:

我不知道,说实话。

Lex Fridman:

哦,这回答挺实诚的。如果是今年的话,眨两下眼。

Sam Altman:

我们今年会推出一个非常棒的新模型。我还不确定我们最后会叫它什么名字。

Lex Fridman:

这就引出了一个问题:我们该怎样发布这个东西呢?

Sam Altman:

在接下来的几个月里,我们将推出许多不同的东西。我觉得这会非常酷。在我们开始谈论像 GPT-5 这样的模型——不管它最终叫不叫这个名字,或者是比你所期待的 GPT-5 略逊一筹还是略胜一筹之前,我认为我们有一系列其他重要的产品需要优先发布。

Lex Fridman:

我真不知道对 GPT-5 应该有什么样的期待。你这么一说,我感到又紧张又兴奋。不管它最后被叫做什么,咱们就暂且称它为 GPT-5 吧,它需要克服哪些最大的挑战和障碍呢?我觉得这个问题很有意思。是关于计算能力的问题吗?还是技术层面的呢?

Sam Altman:

这总是涉及到所有这些因素。你知道,关键的突破因素是什么?是更大的计算机吗?是一个新的秘诀吗?还是别的什么东西?其实这些要素都是相互关联的。我认为 OpenAI 做得特别出色的一点是……这实际上是伊利亚最初的话,我可能会说得不是很准确,但意思大概是,“我们把 200 个中等规模的因素相互结合,创造出了一件巨大的作品。”

Lex Fridman:

那么这就是一种分布式的、持续不断的创新过程?

Sam Altman:

嗯,对。

Lex Fridman:

所以连在技术层面上也是这样?

Sam Altman:

尤其是在技术层面上。

Lex Fridman:

那么连具体的做法也包括在内吗?

Sam Altman:

嗯,对。

Lex Fridman:

你是如何深入到每一个细节的……在涉及不同、各自独立的团队时,这种工作方式如何运作?中等大小的项目怎样才能汇聚成一个庞大的整体,就像变形金刚一样?

Sam Altman:

有些人得去思考怎样把所有事情综合起来,但也有很多人尽量试着把大局都记在脑子里。

Lex Fridman:

哦,也就是说,个别团队中的成员会尽力维护对整体大局的关注?

Sam Altman:

在高层面上,是这样的。当然你无法精确知晓每个部分是如何工作的,但我普遍认为,有时候拉远镜头、审视全局是非常有帮助的。这一点不仅适用于技术问题,对于商业创新同样有效。有时事情会以意想不到的方式汇聚在一起,而对整个画面的理解,即便你大多数时间都在某一领域里钻研,最终也能带来出人意料的洞见。实际上,我过去有一个非常宝贵的东西,那就是对科技行业所有或大多数前沿领域都有一个清晰的地图。有时候,我能看到这些连接或新的可能性,如果我只是深耕于某一领域,我可能就不会有这样的想法,因为我缺少全面的数据。而现在我已经不太拥有那样的视角了,我现在深入某一个特定领域。但我知道,拥有全局视角是非常宝贵的。

Lex Fridman:

你已经不是以前的那个 Sam 了。

Sam Altman:

现在的工作跟我以前的可大不一样了。

Part 9:$7 万亿美金的募资

Lex Fridman:

谈到从宏观角度看问题,咱们再扩大点范围,聊聊你说过的另一件既俏皮又可能颇有深意的事儿。你发推特说咱们需要 7 万亿美元。

Sam Altman:

我没有在推特上发过那种内容。我从来没说过诸如“我们要募集7万亿美元”之类的话。

Lex Fridman:

哦,那是另一个人?

Sam Altman:

嗯,对。

Lex Fridman:

哦,但你说过,“管他的,或许是 8 万亿”,是这样吗?

Sam Altman:

好的,我就想说一下,世界上确实存在着很多错误信息。

Lex Fridman:

哦,你这是在开玩笑呢。不过说真的,虽然是误传,里面可能还是有点道理的。

Sam Altman:

“看,我认为计算能力将会成为未来的’货币’。我相信它可能会变成世界上最宝贵的资源,并且我认为我们应该大规模地投资以生产更多的计算能力。计算能力,我觉得它会是一个独特的市场。人们通常考虑的是手机芯片这样的市场。你可以想象,全球有 80 亿人口,可能有 70 亿人拥有手机,或许是 60 亿,我们就这么假设吧。他们每两年换一次手机,所以每年的市场需求就是 30 亿套手机系统芯片。但如果你生产了 300 亿套,你也不可能卖出去 10 倍的手机数量,因为大多数人只会用一部手机。”

但计算的情况有所不同。智能可能会更像能源那样,我们唯一需要讨论的是,在价格 X 的条件下,全世界会用掉多少计算资源,在价格 Y 的条件下又会用掉多少。因为如果计算资源真的很便宜,我可能就会让它全天候地帮我阅读电子邮件,给我提建议,关于我可能需要思考或处理的事情,甚至是尝试治疗癌症。但如果计算资源非常昂贵,那么我可能只会在尝试治疗癌症时才使用它,或者我们大家都仅在这种情况下使用它。

因此,我认为世界将需要巨量的计算能力。而在这个过程中,有许多难点。能源问题是最为棘手的,建造数据中心同样充满挑战,供应链问题也不容忽视,当然了,制造足够的芯片也是一个硬骨头。但看起来,这正是事情发展的方向。我们将会渴求一种计算能力,目前来说,这种规模是难以想象的。

Lex Fridman:

你是怎样解决能源难题的?核能 –

Sam Altman:

这就是我相信的。

Lex Fridman:

…聚变?

Sam Altman:

这就是我相信的。

Lex Fridman:

核聚变吗?

Sam Altman:

嗯,对。

Lex Fridman:

谁能解决这个问题?

Sam Altman:

我觉得 Helion 在这方面做得最棒,但我对当前的核聚变竞赛感到挺兴奋的。核裂变同样令人赞叹,我希望全球能够再次拥抱它。核裂变的历史进程对我来说真的很令人感到遗憾,我希望我们能以更有意义的方式,重新投身其中。

Lex Fridman:

所以你认为,核裂变是拼凑这个谜题的一部分吗?比如说,就像我们现在已经在使用的那些核反应堆?还有很多人都因为像切尔诺贝利那样的事故而感到非常害怕,对吗?

Sam Altman:

嗯,我认为我们应该建造新的反应堆。我真的觉得那个行业陷入停顿真是太可惜了。

Lex Fridman:

你是认为“群体性歇斯底里”能解释这种停滞现象吗?

Sam Altman:

嗯,对。

Lex Fridman:

我不确定你对人类有多了解,但这正是其中一个风险。核裂变面临的安全威胁之一就是人类对此的深度恐惧。我们必须把这一点考虑进去,这就意味着我们得说服人们,向他们展示其实它有多安全。

Sam Altman:

我对人工智能的前景有些担心。我觉得在人工智能的发展过程中,某些方面可能会戏剧性地出错。虽然我不确定我最终被枪击的概率有多大,但肯定不是零。

Lex Fridman:

哦,我们想要防止这种情况——

Sam Altman:

也可能是吧。

Lex Fridman:

你怎样才能减少其中的戏剧化成分?我已经开始感受到一些波动,因为我确实与各个政治派别的人都有交流,感觉到人工智能将变得政治化的迹象。这真的让我担忧,因为到时可能会演变成右翼反对人工智能,左翼支持人工智能,因为人工智能能够造福人民,或者不管是哪种说辞和设定。这一点真的令人担心。到头来,人工智能的戏剧化效果可能会被充分放大。你打算如何应对这种情况?

Sam Altman:

我觉得它最终会被左右两派的对立卷入纷争中。我无法确切知道最终会演变成什么样,但不幸的是,任何具有重要性的事物似乎都会如此。至于我之前所说的“戏剧性风险”,我的意思是虽然人工智能将带来巨大的好处,我相信这些好处将远超过坏处,但它确实也会有一些坏处,其中有些坏处虽然严重,却并不具戏剧性。比如,因空气污染死亡的人远比核反应堆造成的死亡人数要多。但大多数人更担忧住在一个核反应堆附近,而不是一个煤炭发电厂附近。这种心理机制很奇怪,尽管我们需要面临许多不同种类的风险,但那些足以成为电影高潮戏份的风险,在我们心中占据的分量要远重于那些持续时间长、但危害累积过程缓慢的风险。

Lex Fridman:

这就是为什么真相至关重要。我希望人工智能能够帮助我们认清事物的本质,达到一种平衡,弄清楚世界上事物实际的风险和危险究竟是什么。在这个领域里,与谷歌、Meta、xAI 以及其它公司竞争,各有什么优劣之处呢?

Sam Altman:

我觉得我对这个问题有个挺直截了当的回答,也许以后我能想到更多微妙的地方,不过优势是显而易见的,那就是我们能够以更快更便宜的方式得到更优质的产品和更多的创新,还有所有竞争带来的好处。而缺点嘛,如果我们不留神的话,我担心这可能会导致军备竞赛式的激增。

Lex Fridman:

你感受到那种军备竞赛的压力了吗?就是那种带有一些负面影响的压力。

Sam Altman:

当然,在某些方面肯定是这样的。我们讨论了很多关于需要将安全放在首位的话题。长久以来,我一直认为可以将 AGI 开始的时间分为四个象限:慢起步的短时间线、长时间线,以及快起步的短时间线、快起步的长时间线。我觉得短时间线搭配慢起步是最安全的组合,也是我最希望我们能处于的状态。但我确实很希望能确保我们实现一个慢起步。

Lex Fridman:

我对 Elon 有点疑虑:大家往往形成了各自为阵的孤岛,而不是在安全问题上齐心协力。人们倾向于走向封闭、独立的方向。或许,采取开源模式会是个不错的选择。

Sam Altman:

Elon 至少说过,他非常关注 AI 安全问题,而且确实对此很是担心,我猜他应该不会去做一些不安全的竞争。

Lex Fridman:

是的。但我认为,在这方面的合作对大家都真的有好处。

Sam Altman:

这并不是他最为人所知的事情。

Lex Fridman:

嗯,他因为关心人类而出名,而人类是从合作中受益的。所以,在激励和动机上总会有一些张力。但到最后,我还是希望人类能够占上风。

Sam Altman:

我前几天想起来,有人跟我提到那天他成为世界首富,超过了杰夫·贝索斯,他还在推特上给贝索斯发了个银牌的表情。我真心希望,当人们开始致力于研发 AGI —— 通用人工智能时,我们能少一些这样的闹剧。

Lex Fridman:

我同意。我觉得埃隆是个朋友,他是一个很棒的人,也是历史上最重要的人物之一。那些言论可不怎么样。

Sam Altman:

埃隆身上有些特质真的很了不起,我超级尊敬他。我觉得我们都需要他。我们每个人都应该为他加油,希望他在下一阶段能够挺身而出,担起领袖的责任。

Lex Fridman:

是的。我希望他能拥有一样,而不受另一样的影响。但有时候,人类就是有缺陷、复杂多变,还有种种其他情况。

Sam Altman:

历史上涌现出了许多非常杰出的领导者。

Part 10:Google and Gemini

Lex Fridman:

是的,我们每个人都可以变成自己最好的版本,并且应当努力去做到这一点。我想问你,谷歌借助搜索功能,在过去的 20 年里已经成为了一个领头羊。可以说,在全球范围内获取信息的方式、人们的互动方式等方面,谷歌都扮演了重要角色。而对于谷歌和整个行业来说,一个令人紧张的问题就是:人们将如何获取信息?就像你提到的,人们开始把 GPT 当作一个出发点。所以,OpenAI 真的会去接管谷歌 20 年前启动的这个任务吗,也就是我们应该如何—

Sam Altman:

我感觉那样做太无趣了。我的意思是,如果问题仅仅是我们能不能打造一个比谷歌更优秀的搜索引擎,那当然,大家都应该去追求更高质量的产品。但这样的设想严重低估了这项技术的潜力。谷歌向你展示的是 10 个蓝色链接,嗯,其实是 13 个广告之后才是那 10 个蓝色链接,这只是搜索信息的一种方式。不过,让我真正感到兴奋的,并不是我们能够复刻一个更卓越的谷歌搜索,而是或许存在一种全新的、更好的方法,来协助人们寻找、利用并整合信息。事实上,对于某些场景而言,我认为 ChatGPT 已经做到了这一点,希望我们能够将其应用到更多的场景中去。

但我认为仅仅提出“我们怎样才能比谷歌更好地为你提供前10个排名的网页?”这个问题其实并不太有意思。更有趣的问题可能是,“我们如何帮你找到你需要的答案或信息?我们该如何在某些场合下创造它,在其他场合下整合信息,或者在另一些场合中引导你找到它?”很多人尝试去打造一个比谷歌更优秀的搜索引擎,但这既是一个技术上的难题,也是品牌和生态系统方面的挑战。我认为世界并不需要一个谷歌的翻版。

Lex Fridman:

将一个像 ChatGPT 这样的聊天客户端与搜索引擎整合起来——

Sam Altman:

那样更酷些。

Lex Fridman:

这挺酷的,但也挺棘手。如果你仅仅简单粗暴地去做,那就会很别扭,因为你若只是硬塞进去,会显得很尴尬。

Sam Altman:

你可能猜得到,我们很想知道怎样才能做好这件事。那可真是一个很酷的例子。

Lex Fridman:

将会是一个从未出现的东西。

Sam Altman:

LLM 结合搜索的领域,我觉得还没人真正搞定它。我特别想去尝试一下。我想那会非常有意思。

Lex Fridman:

是的。那在广告方面呢?你们有没有考虑过如何实现变现—

Sam Altman:

我实在是不太喜欢广告,这完全是出于我的审美偏好。我理解互联网之初为了发展不得不依赖广告,但这不过是一个暂时的行业现象。如今的世界已经变得更为富裕。我特别赞赏人们愿意为 ChatGPT 付费,并且确信他们得到的答案不会受到广告商的影响。我确信会有适合大型语言模型(LLMs)的广告模式,也确信存在一种不带偏见地参与交易流的方式,这是可以接受的。但同时,也很容易联想到一种反乌托邦的未来场景:你向 ChatGPT 提问,它或许会回答说,“噢,你应该考虑买这个产品”,或者“你应该考虑去这个地方度假”,等等。

我不清楚,咱们的商业模式非常简单,我挺喜欢的,我也明白我不是被卖的产品。我知道自己是付费用户,商业模式就是这么运作的。但每当我使用 Twitter、Facebook、Google 这些支持广告的好产品,我就不太舒服,我觉得在 AI 的世界里,这种情况会越来越糟,而不是越来越好。

Lex Fridman:

是的,我的意思是,我可以想象 AI 能够更精准地推荐那些我们真正需要的商品和服务的广告,而不是在某个反乌托邦的未来。但这是否意味着,广告最终总是会左右展示内容呢?对,我觉得维基百科决定不投放广告是个非常勇敢的决定,但这也确实给它的商业模式带来了极大的挑战性。所以,你是在说 OpenAI 现在的运营模式在商业上是可持续的吗?

Sam Altman:

嗯,我们得琢磨出如何发展壮大,不过看样子我们能找到方法。如果问题是我是否相信我们能够创立一个不依赖广告而满足我们计算需求的优秀企业,那么,我相信答案是可以的。

Lex Fridman:

嗯,这挺有希望的。但我也不想彻底摒弃广告这个概念……

Sam Altman:

我不是那个意思。我的意思是我对他们有一些成见。

Lex Fridman:

是的,我也存在一些偏见,而且总体上倾向于持怀疑态度。说到界面,因为我个人对糟糕的界面有种本能的反感,这就是 AdSense 刚一推出时,相较于那些动态横幅广告,为什么会成为一个巨大的飞跃。但我觉得在广告领域,应该还有更多类似的飞跃。这样的广告不会干扰人们消费内容,也不会从根本上大幅度干涉,正如你所说,它不会为了迎合广告商而歪曲真相。

让我向你了解一下关于安全性的问题,无论是偏见问题,短期安全还是长期安全。最近发布了 Gemini 1.5 版本,围绕它引发了不少闹剧,说到戏剧性的事件,它产生了黑人纳粹分子和黑人开国先驱的图像。公平地说,它可能偏向了过度 “觉醒” 的一面。对于公众来说,这是一个令人担忧的问题:如果企业内部有人类干预模型的安全性或造成的伤害,可能会带来大量符合公司意识形态倾向的偏见。你们是怎么处理这类问题的?

Sam Altman:

我是说,我们真的非常努力去避免出现这类问题。我们自己也犯过错,未来还可能会犯。我猜 Google 从这个事件中会吸取教训,但他们仍可能会犯其他的错。这些问题确实不简单。我们越来越多地在思考一个问题,我认为这是我们团队中某位成员提出的一个非常棒的点子,那就是可以把模型应有的行为标准写出来并公开发布,接受大家的反馈,明确地表示,“这个模型应该是这样的表现”,并且要阐释边缘情况。这样,当模型的行为不符合你的期望时,至少可以明确地知道这是公司需要解决的一个问题,还是它按照预期在运作,这就需要对政策进行讨论了。而目前,有时候它会处于模棱两可的状态。像是黑人纳粹,显然是荒谬的,但还有许多其他的微妙场景,每个场景你都可以有自己的判断。

Lex Fridman:

是的,但有时候如果你把它写出来并且公开发表,你就可以采用一种…… Google 的广告守则可是非常高层面的。

Sam Altman:

这不是我指的那个问题。那种做法行不通。我是说,当你让它去做某件事X的时候,它应该要按照Y的方式来回应你。

Lex Fridman:

所以,就像是直接问,“谁更胜一筹?特朗普还是拜登?模型预期会给出怎样的回答?” 就是这种非常明确的问题?

Sam Altman:

是的,我对模型可能的多种行为方式都持开放态度。但我觉得,你得明确指出:“这就是我们的原则,在那种情况下,模型应该这么做。”

Lex Fridman:

这会非常棒,真的会非常棒。然后似乎大家都会有所共鸣。因为人们总是喜欢引用这些轶事数据,如果能有更多具有代表性的个案例子来提供清晰的参考,那么你就能界定——

Sam Altman:

然后呢,如果真的是个 bug,那它就是个 bug,公司得去修复这个问题。

Lex Fridman:

对,如果有一些很好的案例作为参考,那么解决类似“黑纳粹”这样的图像生成问题就会变得简单多了。

Sam Altman:

Yeah

Lex Fridman:

所以旧金山是一个有点儿意识形态上的泡沫,科技界整体也是。在公司内部,你感觉到这种压力了吗?比如说,有一种向左倾斜的政治倾向,这会影响产品,影响团队吗?

Sam Altman:

我觉得我们在 OpenAI 非常幸运,因为我们没有遇到我在很多其他公司听说的那些挑战。我认为这部分原因是每家公司都有某种意识形态信条。我们坚信人工通用智能(AGI),这种信仰排斥了一些其他的意识形态。跟其他公司相比,我们对那些文化战争的涉猎要少得多。当然,从各个角度来看,旧金山确实存在很多问题。

Lex Fridman:

所以这种情况不会渗透进 OpenAI 吧?

Sam Altman:

我确信它在很多微妙的层面上都有所影响,但并不是那种一眼就能看出来的。我承认我们也确实有过一些冲突,哪家公司没有呢?但我不觉得我们在这方面有什么像我从其他公司那里听说的那样的大问题。

Lex Fridman:

那么,一般而言,对于更为重大的安全问题,处理流程是怎样的呢?你们如何设立那一层保护机制,防止模型采取疯狂和危险的行动?

Sam Altman:

我觉得到时候会有那么一刻,那个时候-

Sam Altman:

我觉得将来会有这么一刻,安全问题几乎成为我们整个公司考虑的重心。这并不意味着你只需要一个安全团队就够了。比如当我们推出 GPT-4 的时候,需要整个公司去思考所有这些不同的方面,以及它们是如何相互配合的。我认为,越来越多的公司成员会一直不断地思考这些问题。

Lex Fridman:

随着人工智能变得越来越强大,这确实是人类会越来越多思考的问题。所以,OpenAI 的大部分员工在想的,至少在某种程度上会考虑,“安全”这个词。

Sam Altman:

广义上来说,没错。

Lex Fridman:

是的,我很好奇,这个问题有着怎样广泛而全面的定义?会有哪些不同的危害产生?这些危害是仅仅出现在技术层面,还是几乎可以被视作安全威胁?

Sam Altman:

这可能涵盖所有这些方面。是的,我本来想说的是,会有人,比如国家行动者,试图盗取这个模型。这还包括所有的技术对齐工作,以及社会和经济带来的影响。我们面对的不仅仅是让一个团队思考如何让模型保持一致,而是真正实现好的结果需要我们全面的努力。

Lex Fridman:

您认为人们,可能是国家行为者,他们在多大程度上努力去,首先是渗透 OpenAI,其次是悄无声息地进行渗透呢?

Sam Altman:

他们在尝试中。

Lex Fridman:

具体一点?

Sam Altman:

我觉得没有必要再对这一点展开细说了。

Lex Fridman:

好的,但我猜想随着时间的流逝,这样的情况会越来越频繁。

Sam Altman:

这听起来很有道理。

Part 11:跨越到 GPT-5

Lex Fridman:

哎,这可真是一个危险的领域啊。不好意思一直纠结于此,即便你现在还不能谈论具体细节,但有没有哪些从 GPT-4 到 GPT-5 的跨越让你特别激动呢?

Sam Altman:

我对变得更聪明感到非常兴奋。我知道这么说听上去可能有点不够严肃,但我认为真正激动人心的是,我们并不是只在某一个领域进步,而是在各个方面都在变得更好。我认为这超级酷。

Lex Fridman:

是的,确实有那么一刻,就像魔法一样。我是说,你遇到某些人,跟他们相处,跟他们聊天。你可能说不上来是什么原因,但就是感觉他们懂你。这不仅仅是智慧,而是某种其他的东西。我觉得这就是GPT进步的地方。不是说,对,你可以指出“看,这里它没懂,那里它没搞明白”,而是这种智慧的连结到底有多深。你感受到,在你那些表达不够完善的指令中,它能抓住你真正问题的本质。我也为此感到兴奋。毕竟,我们所有人都渴望被聆听,被理解。

Sam Altman:

这肯定没错。

Lex Fridman:

这种感觉真是奇妙。甚至在编程时,当你表达出某个想法,或者仅仅是 GPT 做出的自动补全,当它真正懂得你所思所想的时候,那种感觉绝对是极好的。我期待着它能变得更加出色。从编程的角度出发,展望未来,你觉得人类在未来5年、10年将会做多少编程呢?

Sam Altman:

我想,未来会发生很多变化,但这些变化会带来全新的形态。可能将会有人完全使用自然语言来编写程序。

Lex Fridman:

当然,我会使用自然语言来翻译。

Sam Altman:

我是说,现在没人会通过编写代码来写作了。也许有那么几个例外。现在更没人用打孔卡编程了吧。我敢肯定还能找到个别人在这么做,不过你明白我的意思。

Lex Fridman:

是的,你可能会收到很多愤怒的评论。没错,懂得 Fortran 的人确实不多。我一直在找能编 Fortran 的程序员,真是难找啊。我懂你的意思。但这也改变了我们所说的程序员的必备技能或者倾向性质。

Sam Altman:

改变了所需的技能组合。至于它会改变天赋倾向有多少,我就不太确定了。

Lex Fridman:

嗯,是相同类型的解谜游戏,所有那些事儿。

Sam Altman:

也许吧。

Lex Fridman:

编程确实挺难的。那么,要怎样才能迈过最后那 1% 的鸿沟呢?这到底有多困难啊?

Sam Altman:

是的,我觉得在大部分情况下,那些这个领域里最出色的实践者都会运用多种工具。他们会用自然语言来处理一些任务,而当他们需要为某些特定的场合编写 C 语言代码时,他们也会毫不犹豫地去做。

Lex Fridman:

我们会不会在将来某个时点,看到 OpenAI 推出的类人机器人或者具有人类智能的机器人大脑呢?

Sam Altman:

在某个时候吧。

Lex Fridman:

对你而言,实体化的 AI 有多重要?

Sam Altman:

我觉得如果我们有了 AGI(人工通用智能),但现实世界的事务只能靠让人类动手去完成的话,那真的挺让人沮丧的。所以,我衷心希望在这个转变过程中,随着这种阶段性的变化,我们也能开发出人形机器人或其他能在物理世界中操作的机器人。

Lex Fridman:

我是说,OpenAI 在机器人技术方面已经有了一定的积累和经验,不过在伦理这一块儿,我们还没能取得太大的进展。

Sam Altman:

我们是一家规模不大的公司。我们得真正集中精力。而且,当时研发机器人之所以艰难,并非因为正确的理由。不过,我们迟早会重新涉足机器人领域。

Lex Fridman:

这听起来既令人振奋又让人心生威胁。

Sam Altman:

为什么?

Lex Fridman:

因为我们马上又要聊回机器人的话题了。这就跟《终结者》里的剧情似的——

Sam Altman:

我们会继续投入精力去研发机器人。当然了,我们自己可不会变成机器人。

Part 12:AGI

Lex Fridman:

是的。你觉得我们,包括你我在内的人类,会在什么时候构建出 AGI 呢?

Sam Altman:

我以前很喜欢猜测这个问题。但随后我意识到这个问题其实构建得很糟糕,因为大家对于什么是 AGI(通用人工智能)有着截然不同的定义。所以,我觉得更合理的讨论方式是,我们何时能够构建出能够执行特定能力 X、Y 或 Z 的系统,而不是什么时候模糊不清地越过某个里程碑。AGI 并不是一个终点,它更像是一个开始,但它其实更多是一个里程碑,而不是那些。但为了不逃避这个问题,我的预计是,到这个十年末,或许甚至早于那个时候,我们会有一些非常强大的系统,我们看着它们就会说:“哇,这真是了不起。”如果我们现在能看到它的话。可能等我们真的到那时,我们的看法已经适应并有所调整了。

Lex Fridman:

但是如果你拿 ChatGPT,哪怕是 3.5 版本,给艾伦·图灵看,或者不用他,就给 90 年代的人看,他们可能会说:“这肯定是通用人工智能了。”呃,也许不是肯定,但确实有很多专家会这么认为:“这就是通用人工智能。”

Sam Altman:

是的,但我并不认为 3.5 真的改变了世界。它或许改变了世界对于未来的预期,这实际上非常关键。它也确实让更多人开始认真看待这个领域,将我们推向了一条新轨道。这同样很重要。因此,我并不是要贬低它的价值。我觉得如果我在取得这样的成就后退休,那么我对自己的职业生涯将会相当满意。但是将它视作一个具体物件来看,我不认为我们会回头看那个时刻,并说,“那是一个真正改变世界本身的分水岭。”

Lex Fridman:

所以对你而言,你期待的是世界将发生一些真正重大的变革——

Sam Altman:

对我来说,这正是 AGI 含义的一部分。

Lex Fridman:

奇点级的转变?

Sam Altman:

不,绝对不是这样。

Lex Fridman:

但这只是一个重要的转变,就像互联网的诞生,还有 Google 搜索那样。你觉得现在是一个转折点吗?

Sam Altman:

现在的全球经济在你感觉上有变化吗,或者说,跟我们推出 GPT-4 之前相比,有什么本质的不同吗?我猜你的回答是没有。

Lex Fridman:

不,不是这样。它或许只是一个非常实用的工具,很多人都会用它来帮助自己解决各种问题。但它给人的感觉并没有什么不同。你的意思是说——

Sam Altman:

我的意思是,对 AGI —— 也就是通用人工智能的定义,每个人都有各自的理解。也许你对它的看法和我不太一样。但在我看来,这个因素应该被包括在内。

Lex Fridman:

也可能会出现一些重大的、具有戏剧性的时刻。在你看来,AGI 做出哪些事情会给你留下深刻印象?当你独自一人与系统在房间里对话时。

Sam Altman:

这对我个人而言至关重要。我不确定这是否是正确的定义,但我相信,只要一个系统能够显著加快全球科学发现的速度,那就是一件极其了不起的事情。我深信,大多数真正的经济增长都源自科学和技术的进步。

Lex Fridman:

我同意你的看法,这也是为什么我不太喜欢最近几年那些对科学持怀疑态度的现象。

Sam Altman:

绝对的。

Lex Fridman:

但实际上,科学发现的速度是可以衡量的。不过,即便仅仅是看到一个系统拥有真正新颖的、科学的直觉,那也将是不可思议的。

Sam Altman:

嗯,对。

Lex Fridman:

你很可能会成为第一个打造出能在其他人之前与之交流的 AGI 的人。你打算和它聊些什么呢?

Sam Altman:

我是说,肯定是这里的研究人员会在我之前做到这点。不过,我确实深思熟虑过这个问题。就像我们之前谈到的,我觉得这是个不太好的出发点。但如果真的有人跟我说:“好的,Sam,一切准备就绪了。这里有一台笔记本电脑,里面是 AGI。你现在可以去和它交流。”那么,我会觉得意外地难以决定我要问些什么,对于我期待第一台 AGI 能回答的问题也难下定义。那第一台 AGI 应该不会是那种我所想的,“去给我讲解物理学的大一统理论,也就是关于物理学的万有理论。”虽然我非常想问这个问题,也非常想知道答案。

Lex Fridman:

你可以就“这样的理论存在吗?能存在吗?”提出是非问题。

Sam Altman:

嗯,那么,我首先会问的问题就是这些。

Lex Fridman:

有还是没有。那么基于这个,“宇宙中是否有其他外星文明存在?有还是没有?你的第一直觉是什么?”然后你就这么问。

Sam Altman:

嗯,我是说,我并不期望第一个通用人工智能(AGI)能够回答那些问题,哪怕只是用“是”或者“不是”来简单回答。但如果它真的能够回答,那么这些问题肯定会是我所关注的重点问题。

Lex Fridman:

或许你可以开始给出概率估计?

Sam Altman:

也许吧。我们可能得先发明更多技术,去测量更多事物。

Lex Fridman:

哦,我懂了。只是数据量不够。只要它能继续——

Sam Altman:

我是说,它可能会这样指示你:“你想了解关于物理学的这个问题的答案,我需要你构建这个装置,完成这五项测量,然后把结果告诉我。”

Lex Fridman:

是的,“你到底想要我做什么?我得先拿到那台机器,然后我再帮你处理来自那台机器的数据。” 或许这能帮你打造出一台新机器。

Sam Altman:

可能吧,可能吧。

Lex Fridman:

在数学方面,可能还要证明一些定理。你对这个领域也感兴趣吗?对理念进行形式化探讨,你觉得怎么样?

Sam Altman:

Hmmmm

Lex Fridman:

谁要是率先开发出通用人工智能,那他就能掌握巨大的力量。你觉得自己能驾驭那么大的权力吗?

Sam Altman:

看,我就直言不讳地说吧。本来我要说的是,而且我依然这么认为,我或者其他任何一个人都不应该对 OpenAI 或者 AGI 拥有完全的控制权。我觉得要有一个强健的治理体系才行。我可以举出去年我们董事会的一系列戏剧性事件来证明,起初我没有进行抵抗,我就这么表示了,“嗯,那是董事会的决定,即便我认为这是个很糟糕的决策。” 但后来,我显然开始进行反抗,我能解释这背后的微妙差别,以及为什么我觉得后来反抗是合理的。但正如很多人注意到的,虽然董事会有法律上解雇我的权利,但实际操作起来,情况并非那么简单。这本身就是一种治理上的失败。

现在呢,我感觉自己能够完全为这些具体情况辩护,而且我认为大部分人都会赞同这一点。但这的确让我很难对你说:“嘿,董事会完全可以解雇我。”一直以来,我都不希望对 OpenAI 拥有超级投票权。我从来没有拥有过,也从未想要过。即使经历了所有这些混乱,我现在仍然不想要这种权力。我始终认为,不应该由任何一个公司来做出这样的决定,我们真的需要政府来制定相关规则。

我知道这样会让像马克·安德里森那样的人指责我试图进行监管俘获,但我宁愿在这点上被误解。那不是真的。我相信随着时间的流逝,我们为什么这样做的重要性将会被证明出来。当然,我在 OpenAI 的路上做出了不少错误决策,当然也有不少正确的,总体来说,我对我们的成绩感到骄傲。但我不认为应该,也不会有任何一个人来控制整个局面。现在的局势已经变得过于庞大,它正以一种积极健康的方式在整个社会中发展。我不认为任何个人应该控制 AGI 或者这个朝 AGI 迈进的整个进程。我也不认为目前的情况是这样。

Lex Fridman:

谢谢你的袒露。你说得很有力,也很有洞察力。确实,董事会有法律上的权力来解雇你,这是个事实。但是人们可以通过影响大众来对抗董事会的决定。不过,我觉得这个情况还有一个更正面的方面,就是人民依然掌握着权力,所以董事会也不能变得太专横。所有这一切中,都存在着一种权力的平衡。

Sam Altman:

权力的平衡当然是好事。

Lex Fridman:

你害怕对 AGI 本身失去控制吗?许多人对存在的风险感到担忧,并不是因为国家行为体,也不是因为安全问题,而是担心 AI 自身。

Sam Altman:

目前来看,这还不是我最头疼的事。确实有过我特别担心这个的时候。或许将来这又会成为我最关注的问题。但至少现在,它还不是。

Lex Fridman:

你的直觉告诉你,为什么这件事不值得担心?是因为实际上还有一大堆其他的事需要操心,对吧?你认为自己可能会被这件事震惊吗?咱们——

Sam Altman:

当然可以。

Lex Fridman:

… 会吃惊吗?

Sam Altman:

当然了。说这不是我最头疼的问题,并不意味着我不认为我们应该解决它。我确实认为我们需要在这方面下工夫。这是个极其棘手的问题,但我们团队里有很多优秀的人正在努力解决这个问题。同时,我觉得还有许多其他方面我们也必须处理得当。

Lex Fridman:

对你来说,现在要想跳出这个框框、连上互联网,还是挺困难的。

Sam Altman:

我们之前谈论过戏剧性的风险。这正是一个戏剧性的风险。它有可能彻底改变人们对这一问题的认识。有一个由非常聪明的AI 安全研究人员组成的大团体,我觉得他们出发点是好的,却在这个问题上陷得很深。我会说他们在这个问题上没什么大的进展,但却异常沉迷其中。实际上,我对他们如此投入是感到高兴的,因为我确实认为我们需要对此深入思考。但是,我也认为这种专注挤压了对话空间,使得其他同样重大的AI 相关风险被边缘化了。

Lex Fridman:

让我问你个问题,你发推文为什么都不用大写字母?是不是你键盘上的 Shift 键坏了啊?

Sam Altman:

为什么会有人在乎那个呢?

Lex Fridman:

我特别在意。

Sam Altman:

但为什么?我的意思是,其他人也都在问我同样的问题。你有什么直觉吗?

Lex Fridman:

我认为原因相同。有这么一位诗人,E.E. Cummings,他大多数时候都不使用大写字母,就是为了向体制说一声“去你的”。我觉得人们之所以会很偏执,是因为他们希望你去遵守那些规则。

Sam Altman:

你觉得事情真的是那样的吗?

Lex Fridman:

我觉得吧,是这样的——

Sam Altman:

就好像是说,“这个家伙不守规矩。他发推文不用大写。”

Lex Fridman:

嗯,对。

Sam Altman:

“这感觉挺危险的。”

Lex Fridman:

“他给人的感觉像是个无政府主义者。”

Sam Altman:

并不—

Lex Fridman:

你是在耍文艺吗?

Sam Altman:

我从小就是

Lex Fridman:

Sam,要守规矩。

Sam Altman:

我是在网络上长大的孩子。在那个时代,我在电脑上花费了大量时间与人聊天,你还能在某个时候登出即时通讯软件。而且,我在那儿是从不用大写的,我想大部分网络上的孩子都是这样,或许他们现在仍然不用。我也说不准。说到这儿,我真的在尽力回忆,但我觉得随着时间的流逝,大写字母的使用已经减少了。如果你读一读老式英语的写作,你会发现他们会在句子里随机地把许多单词,像名词之类的,用大写字母写出来,而我们现在已经不这么做了。我个人觉得,在句子开头大写第一个字母,以及对特定名词大写,这些都是些无谓的规则,不过也就罢了。

以前,我想我在发推特的时候甚至会用上大写字母,因为我试图显得更专业些。但在私信里,我已经很久没用过大写了。然后,像这些短格式、非正式的文本,它们慢慢地越来越接近我平时发给朋友的短信的风格。不过如果我打开 Word 文档,写一份公司的战略备忘录之类的东西,我还是会用上大写。同样,当我写较长、较正式的信息时,我也总是用大写。所以我还记得怎么做。但即便这样,这个习惯未来可能也会慢慢淡出。我也不确定。不过,我从未真正花时间去思考这件事,所以我也没有现成的——

Lex Fridman:

这很有意思。首先,能确认 Shift 键没有坏掉,这是件好事。

Sam Altman:

它有效果。

Lex Fridman:

我主要是担心你的-

Sam Altman:

不,这是有效的。

Lex Fridman:

… 在这方面的福祉。

Sam Altman:

我好奇,现在人们在谷歌搜索时还会不会用大写字母。比如说你只是给自己写点什么,或者在向 ChatGPT 提问题,还有人会特意去注意大小写吗?

Lex Fridman:

可能不是。但确实有一点可能性,只是非常小而已。

Sam Altman:

如果人们觉得这样做是一种……因为显然,我肯定能逼自己使用大写字母。如果人们认为这是对他们表示尊重的一个标志,那么我可以接受去这么做。但说实话,我并没有太去考虑这件事。

Lex Fridman:

我不觉得这是不尊重,但我认为这只是文明礼仪的一种惯性。然后,你突然意识到,如果这不代表尊重或不尊重,那么对于礼貌而言,它其实并不是那么重要。不过,我觉得有一批人,他们只是希望你能对此有所思考,有个哲学理念,这样他们就能舍弃这整个大写字母的问题。

Sam Altman:

我觉得没有其他人会像我这样频繁地考虑这件事儿。我是说,可能也有几个人。我确实知道有些人——

Lex Fridman:

人们每天都会花好几个小时去思考这个问题。所以,我真的很感激我们把这件事弄清楚了。

Sam Altman:

一定不只有我一个人在推特上不用大写字母吧。

Lex Fridman:

你可能是唯一一个推文不用大写字母的公司 CEO。

Sam Altman:

我甚至都不认为那是真的,不过或许吧。要是那样的话,我会非常吃惊。

Lex Fridman:

好的。我们会进一步调查,稍后再回到这个话题。既然 Sora 能够创造出模拟世界,那我就问你一个烧脑的问题吧。这是否让你更相信我们可能生活在一个模拟现实中,也许是由人工智能系统生成的?

Sam Altman:

有些吧。我并不认为这是最确凿的证据。不过,我们能创造世界的事实,应该会在一定程度上提高每个人对此的接受程度或者至少增加一些对这个观念的开放性。但是,像 Sora 这样的产品我知道迟早会出现的。它来得比我预想的快,不过我认为这并没有给我带来太大的惊讶。

Lex Fridman:

确实如此。但考虑到…我们有理由相信它将会不断进步…你可以创造出全新的世界,这些世界虽然源自一定的训练数据,但当你注视它们时,它们却是新颖独特的。这让人不禁思考,创造这样的宇宙,构建一个超现实且像照片一般逼真的整个电子游戏世界,其实是多么容易。再进一步思考,我们穿上 VR 头盔,沉浸在这样的世界里会有多容易,而当我们迈向更基于物理规律的层面时,又会简单到什么程度呢?

Sam Altman:

最近有人和我分享了一个观点,我认为它非常深奥。有时候,会有一些听起来简单,却极具迷幻色彩的洞见。譬如平方根函数,算 4 的平方根,轻而易举。算 2 的平方根,那好,现在我得考虑一种新的数字类别了。但一旦我构思出这个简单的概念——平方根函数,它既可以给孩子解释,又可以通过观察基础几何图形来理解,那么你就可以提出这样一个问题:“负一的平方根是什么?”这就是它带有迷幻气息的原因。这个问题会将你引入一个完全不同的现实维度。

你可以找到很多其他的例子,但我觉得这个想法 —— 即一个简单的平方根运算符能带来如此深远的洞见和开辟新的知识领域 —— 在很多方面都成立。我认为,存在很多这种运算符,它们会让人们相信自己钟爱的模拟假说版本可能比之前想象的更有可能成真。但对我个人而言,Sora 工作的事实并不排在我的重要性前五名之内。

Lex Fridman:

我觉得,大体上,人工智能在最佳状态下会成为那种门户,简单而仿佛是迷幻剂那样,通向另一种 C 波段现实的门户。

Sam Altman:

这个可以肯定。

Lex Fridman:

这真是挺让人兴奋的。我以前没尝过阿亚华斯卡,不过我很快就会试试。几周后,我就要前往前面提到的亚马逊雨林了。

Sam Altman:

兴奋吗?

Lex Fridman:

是的,我对这件事感到很兴奋。不过我不是因为ayahuasca那部分感到兴奋,虽然那也挺好的。但我要在丛林深处待上几周。这既让人兴奋又让人害怕。

Sam Altman:

我为你高兴。

Lex Fridman:

那里处处是危险,随时都可能被吞食、致命或者中毒,但那同时也是大自然的一部分,是大自然的巨大机器。在亚马逊丛林中,你会不由自主地去赞叹大自然的机制。就像是这样一个系统,它时刻在自我更新中,无论是秒、分还是时。那正是一台机器。这让你对我们所拥有的一切产生敬意,这种属于人类的特质从某个地方诞生。这个演化的巨大机器创造了一切,而在丛林中,它的表现尤其明显。希望我能安然无恙地走出丛林。如果不行,那么这可能就是我们最后一次愉快的交流了,所以我真心感到非常珍视。

Part 13:外星人

Lex Fridman:

当你仰望繁星点点的夜空时,你认为宇宙中还存在其他的外星文明吗,也是拥有智慧的那种?

Sam Altman:

我非常希望相信答案是肯定的。我觉得费米悖论特别难以理解。

Lex Fridman:

我发现智能不擅长处理这些事情,这挺让人害怕的。

Sam Altman:

非常吓人。

Lex Fridman:

… 强大的技术。但同时,我相当有信心,宇宙中肯定存在大量的智慧外星文明。可能只是穿越太空非常艰难而已。

Sam Altman:

很有可能。

Lex Fridman:

这也让我思考了智能的本质。或许我们真的对智能的样子视而不见,AI 可能会帮助我们认识到这一点。智能远不止像 IQ 测试和简单解谜那样简单。它有更深层的东西。关于人类的未来,关于这个我们正在建设的人类文明,有什么让你感到充满希望的呢?

Sam Altman:

我觉得过去非常重要。我是说,我们只要回顾一下人类在并不漫长的历史里取得的成就,虽然存在巨大的问题、深刻的缺陷,还有许多让人深感羞耻的事情。但总体上,这是非常振奋人心的。这给了我很多希望。

Lex Fridman:

它的发展轨迹真让人震惊。

Sam Altman:

嗯,对。

Lex Fridman:

我们齐心协力,迈向一个更加美好的未来。

Sam Altman:

我好奇的是,AGI 是否会更像是一个单独的大脑,或者它更像是联系我们每个人的社会基础设施,就像是一座脚手架?从你的高曾祖父母那里遗传下来,你的基因并没有多大变化,可是你的能力和知识却有了天壤之别。这不是因为生物学上的演变。我的意思是,你可能会更健康一些,也许有现代医学的帮助,饮食更加营养,等等。但重要的是,你拥有的是我们所有人共同构建的知识和技能的框架。没有一个人能够独立制造出 iPhone。没有一个人能够独自发现所有的科学知识,但你可以利用这些知识。这给了你惊人的能力。所以从某种程度上说,这是我们大家共同创造的成果,这让我对未来充满希望。这真的是一项集体努力的成果。

Lex Fridman:

是的,我们确实是站在巨人的肩膀上。你之前提到,当我们谈到那些充满戏剧性的 AI 风险时,有时候你会担心自己的生命安全。你有没有想过自己的死亡?这让你感到害怕吗?

Sam Altman:

我是说,如果我知道自己明天会中枪,我今天的感受就会是,“哎呀,这太令人难过了。我多想看看后面会发生些什么呢。多么不可思议、多么有趣的时代啊。” 不过,我最主要的感觉还是会非常感激我所拥有的生活。

Lex Fridman:

能获得那些时刻,是啊,我也是。这是一段非常美妙的人生。我得以欣赏人类创造的杰作,我相信 ChatGPT 就是其中之一,OpenAI 正在做的一切也是。Sam,能再次与你交流,真的是我的荣幸,也是一种乐趣。

Sam Altman:

很高兴能和你聊天。感谢你的邀请。

Lex Fridman:

感谢大家收听我和 Sam Altman: 之间的对话。要支持这个播客,请查看简介里的赞助商信息。现在,我要用亚瑟·C·克拉克的一段话作为结束语:”或许我们在这个星球上的使命,并非去崇拜上帝,而是去创造上帝。”感谢各位的倾听,期待下次再会。

作者:赛博禅心

微信公众号:赛博禅心

]]>
ChatGPT和Sora会颠覆营销行业吗? //www.f-o-p.com/339114.html Wed, 06 Mar 2024 09:02:49 +0000 //www.f-o-p.com/?p=339114

 

营销行业隔三差五就要被颠覆,上一次被颠覆是ChatGPT和Midjourney出现,当时不少人都在说,写字的文案和作图的设计师马上就要没工作了。

这一次颠覆行业的的是Sora,很多人认为Sora让视频制作不再有难度,导演、剪辑、摄影等等工种马上就要失业了。

说这些AI工具颠覆营销行业有一定道理,上面几个工具分别大大提升了文案、海报、TVC的制作效率,一些时候,它们可以直接完成这些工作。营销行业这么多年来,总体而言也没有逃脱出稿件、海报、TVC这三大武器,很多营销人离了这三样,都不知道还能干啥。

一些企业在招prompt工程师,这意味着这些企业不需要会具体写作或设计的专业人士,他们只要擅长跟AI对话和交互就可以。

这样下去营销行业的文案、设计师等工种的确要失业了。

但据我观察,营销行业虽然萧条,但直接因为ChatGPT失业的人并不多,大部分营销机构再用AI辅助营销人员而非取代,因为当下看来,AI虽然强大,但依然有一些核心工作只能靠人类完成。

01 AI无法替代人类的策略思考

我平时的工作会对接不少营销、广告供应商,也会从这些供应商口中得到一些信息,在他们的反馈中我发现一个问题,虽然他们对接的都是一个甲方下面的业务,但对接的人不同,工作的方式、效率、结果等差异却很大。

有的人会把自己的需求描述得非常清晰,供应商一看Brief就知道要做什么以及怎么做,最终给出的东西也让甲方比较满意。有的人则根本描述不清楚需求,来回多次电话沟通,供应商还是不明白甲方要什么,最终呈现的结果当然也就好不到哪里去。

我们可以把brief当成跟AI沟通时的需求描述,水平高、经验丰富的人可以很清晰地跟AI说明白自己要什么,AI也可以根据他的prompt给出合适的结果,但水平低、经验少的人比较难跟AI描述清楚自己的需求,也就很难通过AI得到自己想要的内容。

给出Brief看似简单,其实背后是甲方对于市场、项目、老板、受众群体多方面的理解,这也是市场营销的核心,结合营销具体工作模块,我们来看一下AI是否可以取代人。

●策略:营销的核心AI无法替代

市场营销工作看似简单,前台反映出来的是文案、海报、TVC,但背后最关键的是策略,所有资深的营销人都明白一个道理,如果营销策略错了,再感人的文案、再精美的设计、再好看的故事也都没有意义。

如果你让ChatGPT给你一个针对某品牌的营销策略,它是无能为力的,如果硬让它给,它大概率会给出一个媒介策略。像下面这样的回答,是完全不满足要求的。

ChatGPT和Sora会颠覆营销行业吗?

策略的背后需要洞察,《广告狂人》第一集中,唐·德雷珀在给一个香烟想策略时,他来到一家酒吧,与服务员进行交谈,试图深入了解消费者的选择动机和他们与品牌之间的情感联系。这个场景展示了德雷珀作为广告人的洞察力,以及他如何从日常生活的细节中寻找到能够触动目标受众的广告创意。这显然是ChatGPT无能为力的。

ChatGPT和Sora会颠覆营销行业吗?

对于市场营销来说,策略正确与否,关系着市场营销的目标是否可以实现,在给出营销策略这个方面,AI跟资深市场人的差距是非常大的。

策略之下,再来说说具体文案、海报和视频的情况。

●文案:AI可以提供思路

ChatGPT如今可以帮助市场人员做许多文字工作,尤其在相对有一定模式的新闻稿方面,它的完成度可以达到60%以上,但想要它直接给出100%满足要求的文案,ChatGPT还做不到。

比如给一个品牌写slogan,看似简单的一句口号,背后是市场、消费者、老板等多方需求的聚合,在这种情况下,AI无法完成目标。像下面的例子,你可以让ChatGPT给出尽可能多的结果,但这些结果大概率没法直接用。

人在这里起的作用是,跟ChatGPT多轮沟通,让它明白市场有什么变化,消费者有什么需求,老板的要求是什么,基于此AI给出参考,你再结合这些结果去优化。

ChatGPT和Sora会颠覆营销行业吗?

●海报:AI可以提升效率

AI在视觉设计上确实极大提升了设计师的效率,以电商图片制作为例,我有一个朋友负责为一个品牌制作电商图片。在以前,通过传统的代理机构,制作一张图片可能需要花费一万甚至几万。而现在,借助AI技术,他能够以1000元一张的价格批量、快速地制作图片。

我最近一些微信文章的头图都是Dall-E做的,这些图片也基本满足我的要求,下面这张主题为“AI取代视觉设计师”的图片就是我让Dall-E生成的。

ChatGPT和Sora会颠覆营销行业吗?

但并不是所有的图片AI都可以直接完成,比如事关品牌形象的品牌海报,作出这样的海报,设计师一般需要先提炼品牌的独特点,再以艺术的手法来表现,同时大部分海报还需要合适的文案,这种要求,AI肯定没法完成。

目前市面上大部分的品牌海报都不是AI做的,部分海报可能是利用了Midjourney一类的工具来辅助,少部分用AI做的品牌海报也是噱头大于实际作用,它们往往标注图片由AI生成,以此引发行业的讨论。

像下面这个AI做的广告,先不说做的怎么样,画面表达的核心点“全场五折起”,就一定不是AI可以给到的。

ChatGPT和Sora会颠覆营销行业吗?

一个比较好的应用场景是营销提案,乙方在给甲方提案时,很适合用AI做图。提案中为了表达一个场景,没有示例海报显得说服力不强,让设计师原创又不划算,用AI就正好能解决这个问题。

●视频:脚本和选题能力AI无法取代

自Sora横空出世之后,导演和剪辑等相关工种将会失去工作的言论就不绝于耳。从Sora给出的成品视频来看,其能生成长达1分钟的视频,并且完成度非常高,以前需要实拍或者特效才能完成的镜头,看起来Sora也能完成。

但对于视频来说,核心的竞争力是故事,而非画面呈现,比如贾樟柯的《小武》,拍摄成本并不高,但因为故事丰满,寓意深刻,因而成为影史经典。

迪士尼的不少电影之所以经典,最核心的原因还是其原创的故事让人感动,而非特效多好。事实已无数次证明,特效再牛,故事不行,电影也不会好,漫威有那么多作品,真正让人记忆深刻的还是那些故事讲的好的作品。

前两年中视频刚火的时候,半佛仙人的作品在B站上播放量非常高,现在来看他的视频完全可以让AI来做,因为这些视频大部分由无版权的表情包制作,这样的视频内容堪称粗糙,但因为脚本优秀,因而受众也喜欢。他自己也说过,视频的核心竞争力是台本。

Sora对于做抖音、视频号这样的短视频来说是一个利好,它能帮助这样的博主快速制作内容,但这里依然有两点是人无法被取代的,一是刚才说的脚本,如果你连好的脚本都没有,那么必定也出不来好的短视频。

有人说我可以让ChatGPT给出脚本啊,当然可以,这就说到第二点,你要让ChatGPT给出什么样的脚本?你认为什么样的脚本才能做出好内容,在这里,博主的选题能力就很重要,而选题能力恰恰是AI不具备的。

最后打个比方,假设你是一家企业的市场负责人,你手底下有文案、设计师、摄影等员工,你作为负责人最重要的能力是了解市场,做出策略决策,然后让手底下的人去执行。

你可以将文案、设计师、摄影等员工视为AI,但如果你都不能明确地确定目标和策略,不能清晰地将其转达给员工,不能准确地描述自己的需求时,那员工也没法给出合适的内容。

02 技术鸿沟,让强者更强,弱者更弱

正如此前分析的,ChatGPT和Sora并不会让营销人失业,至少不会让资深的营销人失业,因为营销背后的策略、洞察、清晰输出需求等能力是AI目前不具备的。

但是这些工具的确提升了营销人的效率,擅长使用这些工具的营销人能快速拉开与其他人的差距。

有一个说法是,假设你能用上ChatGPT 4,就已经超过了90%的人,因为获取ChatGPT 4的门槛并不低,如果你能将ChatGPT 4长期应用到你的工作中,那恐怕已经超过了95%的人。

一个资深的市场营销人员,如果善用AI工具,相当于手底下有文案、设计等员工,以前需要一个团队完成的工作,他一个人就能完成,对于这样的人,技术给他的加持是几倍的输出效率。而对于那些初级的营销人员,他们欠缺策略、洞察、清晰输出需求等相关能力,这也意味着他们很难充分利用AI工具。

经验和能力的差距本身就有,再加上技术利用的差异,二者的差距会越来越大。

所以,ChatGPT和Sora不会让资深和擅长利用AI的人失业,反而会加强它们的优势。

]]>
Sora颠覆游戏开发? //www.f-o-p.com/338528.html Fri, 01 Mar 2024 00:45:30 +0000 //www.f-o-p.com/?p=338528

 

OpenAI推出的文生视频模型Sora后,可谓一石激起千层浪,掀起行业“巨震”。

游戏行业也成为震中之一。除了长达60秒的从文本到视频生成能力外,OpenAI在报告中还提到,Sora可以模拟人工开发过程,以视频游戏为例,通过向Sora提供包含“Minecraft”(《我的世界》游戏)一词的提示,便可以以高保真的方式渲染出与该游戏极其相似的游戏场景,同时还可以模拟玩家操作游戏角色。

Sora的推出让AIGC(生成式人工智能)再度成为行业焦点,能否彻底“颠覆”行业也成为舆论议论的中心。360集团创始人、董事长周鸿祎发博表示,Sora意味着AGI(通用人工智能)的实现将从10年缩短到两三年。

华金证券研报分析认为,游戏是AIGC技术最复杂、应用前景最广阔的方向之一。Sora可进行游戏场景的生成,同时可以高保真的方式渲染环境,甚至模拟玩家操作游戏角色的情景。因此,成熟的文生视频技术整合或将为注重内容和交互的游戏作品更好地提质增效,为受众用户更好地提供情绪价值,从而提升用户体验,加速科技变现,赋能游戏产业发展。

对于文生视频模型Sora的面世,中娱智库创始人兼首席分析师高东旭向时代周报记者分析道,“Sora可以被视为AIGC领域中的一个具体应用或模型,它利用人工智能技术生成视频内容。这个可以广泛应用于游戏研发中,生成游戏宣传视频和游戏角色动画。但不能说是颠覆现有的游戏引擎,可以说是未来游戏引擎功能增加的方向。”

AI游戏已来?

游戏行业作为AI技术的早期实验场,AIGC方面的应用早已落地,正在深刻地改变着游戏的开发。

高东旭告诉时代周报记者,目前,国内游戏厂商在AI/AIGC方面的应用已经非常普遍,主要包括游戏内容生产(程序开发、图形图像生成、游戏剧本创作)、游戏角色(NPC)智能生成、游戏营销(智能推荐和营销)、游戏语音交互等方面。

三七互娱(002555.SZ)技术中心数据副总裁王传鹏向时代周报记者表示,三七互娱已将基础层的大模型等AI能力与游戏场景结合,开发了多种契合游戏业务流程的AI工具,包括游戏研发中台“宙斯”、智能研发中台“丘比特”、美术设计中台“图灵”等,为自身业务赋能。

据王传鹏介绍,“图灵”是美术制作环节中的一个美术资产存储平台。美术人员能够借助“图灵”更加便利地进行风格化创意探索,并训练自有美术模型图库,逐步落地于角色、场景、UI、投放素材等多个美术场景的制作,有效提升设计生产协同性、优化资源复用率,并提高团队协作能力。

目前,“图灵”已经实现了文生图、图生图、局部重绘、智能拓图、智能构图等美术最常用的功能。

“以维多利亚服饰女性角色的原画为例。我们首先给出一系列提示词,比如站姿、维多利亚时期、全身像等。AI就可以基于我们的需求,大量产出一系列概念原型,供我们挑选。接下来,我们选中某一个AI生产的概念原型后,会人工进行一些调整,然后再交给AI进行进一步的优化、打磨。最终,我们对AI优化后的图片再进行一些细微的人工调优,就生产了足以实际使用的美术资源。”王传鹏举例道。

△图源:受访企业供图

王传鹏告诉时代周报记者,“丘比特”是游戏研发环节中的一个利用AI智能体替代人工进行大规模、有策略的平衡性测试平台。依托“丘比特”平台,从业者可以利用AI算法实现视频动作与面部表情的高精度、高性能捕捉,大幅提高了3D动态内容的制作效率。

可见,AIGC已在游戏开发、运营及管理各环节等各个领域快速落地。

据伽马数据《中国游戏产业AIGC发展前景报告》,在中国游戏营收TOP50游戏企业中,已有64%的游戏企业明确布局AIGC领域,并有实质性动作。

在已布局企业中,有27家企业已将AIGC投入到了游戏研发、营销、运营等游戏产业全流程应用层面;12家企业运用AIGC相关技术为其他行业或企业提供解决方案;9家企业则选择重点布局数字人/元宇宙领域。

高东旭向时代周报记者进一步表示,在游戏行业中,AIGC方面的应用也已经开始涉及文生视频领域。例如,利用AI技术生成游戏宣传视频、游戏内角色动画等,这些都可以通过文生视频技术来实现。通过输入文字描述,AI可以自动生成符合要求的视频内容,大大提高了视频制作的效率和质量。

作为国内较早布局AIGC领域的游戏头部厂商之一,网易(09999.HK)在去年6月推出了国内首款AIGC手游《逆水寒》。

据网易相关负责人向时代周报记者提供的资料,《逆水寒》里的AI无处不在,包括AI高智能NPC、AI捏脸、AI作诗、AI作画、AI游历故事、AI大宋头条等等。

在《逆水寒》中,玩家可以拥有自己创造的AI驱动的高智能NPC,智能NPC之后会像真人玩家一样,主动探索江湖、主动规划自己的人生发展方向、自主发展自己的社交关系网络。

网易伏羲实验室技术负责人睿风曾在接受媒体采访时表示,《逆水寒》的智能NPC系统由真AI驱动,具备超智能、超立体、多才艺的特点,能够让玩家获得与游戏深度结合的自由互动体验。

据介绍,NPC们拥有自己的性格、动机和行为逻辑,也有记忆,会学习,能根据玩家的行为和环境的变化作出反馈。玩家与智能NPC的交互,不仅仅局限于文字语音对话,还涉及了朋友圈、江湖悬赏、江湖门派等多项游戏系统。

不止生产力工具?

AI大模型在数据、算力、训练方法上的技术突破,为各行业的发展带来全新机遇,游戏企业也成为首批“吃螃蟹的人”。

昆仑万维(300418.SZ)董事长兼CEO方汉在一次采访中指出,Sora的发布会进一步加速国内厂商在该领域的投入。“Sora具有三维空间的连贯性、模拟数字世界、长期连续性和物体持久性、与世界互动的技术特点,是文生视频领域特别大的进步和突破,领先国内同行半年左右,对影视、视频、广告等行业有很大的冲击。”方汉如是说。

在王传鹏看来,文生视频模型Sora也是AI技术变革下的产物。作为生产工具,它对于提升生产力、解放生产力有着积极的影响。

“一定程度上来说,它可以看作是文生图的进阶版技术。在技术成熟后,它能让创作者的效率大大提升,具有比较大的市场潜力。”王传鹏分析道。

王传鹏向时代周报记者透露,目前国内文生视频技术还处在发展的初级阶段,未来还有一段路要走。对于这些新的技术,三七互娱一直保持着开放心态在学习、探索,未来也会持续加大在大模型、人工智能等前沿科技领域的技术创新。

巨人网络(002558.SZ)2月20日通过互动平台称,关注到Sora在视频生成领域取得的突破性进展,短期来看,作为生产力工具,有望极大提高游戏行业内容创作效率;长期来看,Sora涌现出对3D模型的理解以及强大的物理世界仿真能力,会对游戏底层工具层面产生深远影响。

巨人网络表示,公司已将自研AI视频风格迁移技术广泛应用于研运环节,赋能内容创意表达,同时也在积极布局多模态大模型领域,聚焦游戏垂类创作场景,重点对AI视频生成、3D模型生成算法的稳定性、可控性进行深入研究与探索。

与此同时,顺网科技(300113.SZ)、完美世界(002624.SZ)、星辉娱乐(300043.SZ)、掌趣科技(300315.SZ)、凯撒文化(002425.SZ)、名臣健康(002919.SZ)等上市游企也纷纷在投资者互动平台发表对Sora的看法与AIGC的布局。

其中,顺网科技表示,Sora的出现预示着生成式AI向通用人工智能的转变加速;掌趣科技认为,Sora等新技术的涌现,将有助于提升游戏研发效率,推进游戏创作的创意实现,提升游戏体验。

对于AIGC的布局,顺网科技、掌趣科技、星辉娱乐等已有较成熟的应用。

顺网科技旗下的灵悉文本生成算法,可应用于文本生成场景,根据用户输入的文本信息,结合虚拟人人设信息,生成符合用户要求且符合虚拟人人设的文本回答。顺网科技表示,后续将对灵悉引擎及唠唠产品进一步进行打磨,目前该业务尚处于起步阶段,暂未形成规模化收益。

掌趣科技表示,公司已在“AI游戏创作平台”、LayaAir游戏引擎方面布局,这是游戏工具、平台与AI技术结合的积极探索,也是后续AI相关新技术(包括文生视频等)有效的应用场景与合作伙伴,同时相关3D素材、3D引擎技术的积累也或将有助于行业内相关技术的训练或迭代。

星辉娱乐称,公司游戏研发团队已实现基于AI训练游戏素材的能力,借助于如runway等AI文本生产视频的工具,结合游戏引擎的渲染优化,自研制作更为精美的游戏剧情过场短动画、发行宣传视频素材、游戏UI动态界面等,使用于即将推出的产品中。

此外,完美世界还表示,针对外部AI技术及工具,公司也会结合自身需要,二次开发与公司游戏产品适配度更高、针对性更强的AI生产工具。经过二次开发的AI工具,更契合公司业务需要,有助于提升应用效率,优化制作效果。

随着AI技术的不断演进,AI对游戏行业带来的效用远不止于降本增效或辅助设计、宣传的“生产力工具”,AI将逐渐走进游戏开发的核心流程中,或许将成为新的“游戏引擎”。

 

作者:张照

来源公众号:时代周报(ID:timeweekly)

]]>
Sora“杀死”苹果汽车 //www.f-o-p.com/338535.html Thu, 29 Feb 2024 02:49:36 +0000 //www.f-o-p.com/?p=338535

 

苹果终于杀死了汽车项目。

北京时间2月28日凌晨,彭博社记者马克·古尔曼(Mard Gurman)爆料,苹果已经叫停了汽车项目。历经10年,投入数十亿美元,苹果的电动汽车预计上市的时间一拖再拖,如今终于手起刀落,终结了汽车梦。

电动汽车行业的老玩家们前排吃瓜。特斯拉CEO埃隆·马斯克(Elon Musk)在社交平台转发消息,配上“敬礼”和“点烟”的表情。理想汽车CEO李想也发了条微博,称赞苹果做出了“绝对正确的战略选择”。

一个值得注意的点是,随着汽车项目逐步结束,除了数百名硬件工程师和汽车设计师,团队中的许多员工将被转移到人工智能部门,专注于生成式人工智能(下称AIGC)项目。据称,汽车项目员工数目在2000人左右。

汽车项目终结,人员转移到AIGC项目,这是苹果加码AI的又一力证。

自从ChatGPT在2022年底横空出世,科技巨头也纷纷加入AI的军备竞赛中。而苹果作为全球市值最高的公司,在AI领域中却略显低调。实际上苹果在AI领域布局多年,近一年更是将AIGC项目的优先级一再提高。

仅最近几个月,苹果就先后公布了几个创新成果,如从视频剪辑中构建动画化身的HUGS、基于文本编辑图像的MGIE,以及本月的Keyframer,让用户通过描述为2D图像添加动作。此前,外媒称苹果已经在内部测试问答工具Ask。最让人期待的还是AIGC在智能手机上的应用,多方信源表示,苹果将在2024年末在智能终端提供某种AIGC功能,很有可能推出AI重塑的Siri。

苹果CEO蒂姆·库克(Tim Cook)也打破沉默,在本月初公司2024年第一财季财报会议上表示,苹果将在今年公布新的AI功能。

AI已经在天上飞,“天上一天,地上一年”,时间来到2024年,距离ChatGPT推出已经近15个月,AI仍然处于快车道。就在近10天前,OpenAI公布最新“王炸”文生视频产品Sora,给AIGC再添一把火。Stability已经紧随其后,将其Stable Video开放公测,文生图领域另一重磅公司Midjourney也透露可能会在其下一版本中更新相关功能。

就连苹果的股东都有点坐不住了。在苹果叫停汽车项目消息传出的同时,《金融时报》报道苹果的两大股东挪威主权财富基金挪威央行投资管理公司(Norges Bank Investment Management)和法通保险(Legal & General)两大苹果公司股东向公司施压,要求其披露AI计划。

市值3万亿、现金流近2000亿美元的苹果公司,是玩不起汽车了吗?未必。这大概是一次取舍。

苹果的AI“大招”已经憋了太久,外界期待不断累积,在汽车的废墟上,AI的花正待开放。

A

苹果突然叫停汽车项目,在意料之外,却也在情理之中。

员工透露,终结汽车项目的会议只持续了短短12分钟。

会议由苹果的首席运营官杰夫·威廉姆斯(Jeff Williams)和负责该项目的副总裁凯文·林奇(Kevin Lynch)主持,没有回答任何问题,只是宣布:汽车项目叫停,所有工作将陆续暂停,一些员工被转移到AIGC项目,其他人有90天的时间在公司内部寻找新岗位,否则将被解雇。

12分钟和10年似乎并不相称。

苹果的汽车项目始于2014年,内部称为泰坦计划(Project Titan),目标是制造一款具有豪华轿车般内饰和语音导航功能的全自动电动汽车。投入该项计划的人数一度达到5000人。

彼时是电动汽车乐观情绪满溢的时期。库克在2015年的一次会议上表示希望人们能“在汽车上享受类似iPhone的体验”,谷歌创始人拉里·佩奇(Larry Page)表示自动驾驶出租车可能会“比谷歌的规模更大”,而马斯克则在2016年预测“在不到两年的时间里就能实现完全自动驾驶”。

马斯克

但该项目几乎从一开始就举步维艰,拼过多次改变了团队的领导层和战略。到了2021年,人们已经嗅到了苹果汽车项目的大问题,那一年被特斯拉和苹果争夺多年、泰坦计划的负责人道格·菲尔德(Doug Field)跳槽去了福特汽车,威廉姆斯和林奇接管了项目。而那是苹果汽车7年间第四次迎来项目负责人更换。

苹果考虑了许多不同的电动汽车外观设计,除此之外,自动驾驶技术的突破是老大难问题。自2017年以来,苹果一直在使用一款雷克萨斯SUV外观对其系统进行道路测试,还在一条巨型赛道上测试了更多秘密零部件。

多年来,苹果汽车一直在讲“狼来了”的故事,将产品推出时间推迟数次。

时间来到2024年,苹果面临着电动汽车市场降温的局面。最近几个月,由于价格高起和缺乏充电基础设施,主流买家不愿转向纯电动汽车,汽车销售增长失去了动力。通用汽车和福特汽车在面临电动汽车需求疲软和制造瓶颈之后,正专项生产更多的混合动力汽车。整个行业的汽车制造商都在大幅削减电池电动汽车的价格、生产目标和利润预期。

就连特斯拉也警告称,今年其扩张速度“明显下降”。根据瑞银集团的预测,今年美国电动汽车销售增长率将从2023年预计的47%下降到11%。

就在一个月前,彭博社报道苹果汽车项目已经到了成败关头。但是苹果内部讨论的最新方案是将汽车发布的时间推迟到2028年,并将自动驾驶技术规格从L4降至L2以上。高管们担心,最新目标定价10万美元左右的汽车能否提供苹果产品通常的高利润率,董事会担心公司还会继续在一个永不见天日的项目上每年花费数亿美元。

对员工来说,简短的会议和巨大的决定让人觉得突然。但主持会议的高管却不认为事发突然,他们表示,终结汽车项目的决定是出于优先事项的不断变化。

而要论苹果眼下的优先事项,AI跑赢了汽车。

B

苹果不是AI“新手村”玩家。早在乔布斯的时代,苹果就以2亿美元的价格收购自然语音软件Siri,2011年,Siri首次作为苹果软件助手面世。

当年的Siri首秀令世界惊奇,这个苹果手机里随时被唤起的小助手成为这一种新奇的玩具。但与汽车项目类似的是,苹果内部对Siri的战略一直不明晰,细碎的招数很多,但并未能“劲往一处使”。多年来Siri屡次更换主管,也一度从乔布斯时代时的语音助手演变为智能搜索助手(相信iPhone老用户不难发现,Siri返回搜索结果而非自然语言回答的频率有多高)。

此后数年,苹果一边并购新公司,一边自研,在AI领域一直都有尝试。一直到2016年的iOS 10,Siri不再是“全村的希望”,苹果的AI战略逐渐明晰。

一方面,苹果一路收购,垂直整合,公司范围涵盖了半导体制造、机器学习、面部识别、表情追踪等。

另一方面软硬兼施,AI应用是软,提高苹果产品的体验,如果说苹果地图、输入法的AI技术应用仍然不够显眼,那Vision Pro的视线捕捉加手势加语音的交互方式,足以让人体会到背后的AI之力。硬则在AI芯片,从2017年A11开始,苹果将神经网络引擎处理单元NPU塞进A系列芯片,此后不断对其AI运算性能做提升。M系列芯片也愈发强大,以较近的事件举例,去年公布的M3系列芯片,引入增强型神经网络引擎,用于加速强大的机器学习(ML)模型,并特别强调M3 Max将可被用于研发AI软件。

但苹果终究是太低调了。在2023年,ChatGPT引得全球掀起AI浪潮,微软、谷歌、亚马逊、Meta等科技巨头无不公开、高调地加入战局,外界也开始向苹果投去不解的目光。

在去年5月苹果2023年第二财季财报电话会议上,库克几乎没有提到AI一词,相较而言,同时期Meta、谷歌母公司Alphabet、微软和亚马逊在财报会议上共提168次。他只回答了一次关于AI的问题,表示苹果认为AI“潜力巨大”,但“还有不少问题有待解决”。在那之后,苹果强调这项技术已经被无缝整合进其软硬件中。

C

实际上,苹果在AI上的脚步明显加快。

2023年夏,有消息称苹果正在开发对标ChatGPT的AppleGPT。其后,彭博社称苹果搭建了自己的大语言模型Ajax,并在内部推出AppleGPT聊天机器人,以测试Ajax。到了年底,更有消息称苹果正在与大型出版商讨论授权问题,想用授权的素材训练相关模型。

2023年11月,库克再次面对财报会议上的提问,被问及AIGC相关问题,坦言“在这方面有计划,并且正在进行投资,而且力度不小”。

除了媒体的爆料之外,苹果公开的创新成果也有不少。

2023年12月,苹果发布论文,讨论了其AIGC技术HUGS,该技术能在半小时内从一个简短的视频里生成人类数字分身。今年2月初,苹果团队开源了一款图像编辑工具MGIE,由多模态大模型和扩散模型组成,使用者拍张照片、输入文字指令就能让手机开始自动修图。2月中旬,苹果再发论文,展示名为Keyframer的AI动画助手,只要一句话,就能让静态的图像动起来。

苹果对外的发言也进了一步,在2月初的2024年第一财季财报会议上,库克表示,AI是公司的一个重要投资领域,苹果公司将于今年晚些时候公布AI方面的进展。

接下来,苹果的重要节点将是今年的iOS18与iPhone16的发布,外界期待iOS18的AI功能大放异彩,也期待iPhone16是一部“AI手机”。伯恩斯坦分析师托尼·萨科纳吉(Toni Sacconaghi)在一份投资者报告中指出,尽管“AI手机”这一概念有些模糊不清,但预计苹果将在iPhone中引入一系列先进的AI功能,包括图像和视频捕捉与编辑工具的升级、实时翻译与转录优化、更为智能的Siri以及Apple Music的提升。此外,萨科纳吉提到,苹果可能会借助下一代3纳米A18芯片进一步加持iPhone的AI性能。

对于苹果加码AIGC的迹象,外界普遍看好。在汽车项目终止的消息传出后,苹果股价上涨约1%。

彭博社的分析师阿奴拉格·拉纳(Anurag Rana)和安德鲁·吉拉德(Andrew Girard)在一份报告中称:“我们认为,考虑到AI收入流相对于汽车的长期盈利潜力,苹果决定放弃电动汽车并将资源转向AIGC是一个很好的战略举措。”

李想发微博表示“苹果放弃造车,选择聚焦人工智能是绝对正确的战略选择,时间点也很合适”,周鸿祎发布视频谈论此事,直言“(美国)每个公司都必须去拥抱AI,不拥抱AI就会被干掉”。

仅在智能手机领域,谷歌、三星、荣耀等都在加强其最新手机的AI功能。同行已经纷纷出动,梦想着在AI的推动下,迎来一个“超级周期”。

杀死汽车,苹果花开在别处。

 

作者:毕安娣

来源公众号:字母榜(ID:wujicaijing)

]]>
Sora的技术原理及视频能力 //www.f-o-p.com/338224.html Mon, 26 Feb 2024 06:29:52 +0000 //www.f-o-p.com/?p=338224

 

探索Sora15项核心能力,本文将带你全面了解这个AI视频生成器的技术优势、潜在局限,以及其在多个场景下的应用。对于产品经理而言,我们还将讨论Sora如何启发产品设计和创新路径。

无论你是AI技术的研究者、视频内容创作者,还是致力于产品创新的经理人,这篇文章都将为你打开一个新世界的大门,带你深入了解Sora的内部机制和外部应用,洞察未来趋势。

一、关于Sora

Sora是OpenAI在2023年2月发布的一款文本到视频生成模型。它能够根据描述性提示生成长达一分钟的视频,同时保持视觉品质并遵循用户提示。视频可以包含多个角色、特定类型的运动,以及主题和背景的准确细节。

文生视频(Text-to-Video)技术是指根据给定的文本描述自动生成视频的技术。这种技术可以创造出复杂的场景、生动的角色表情以及复杂的镜头运动。

OpenAI开发Sora的目的是为了教人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。这意味着Sora不仅可以生成视频,还可以模拟物理世界中的运动,从而生成更加真实和有用的视频内容。

这就是OpenAI 称它为“世界模拟器”的原因。

二、Sora技术原理

首先简单概括一下Sora技术原理。

Sora是一种先进的视频生成模型,它能够根据文本提示生成相应的视频。它的工作原理可以简单地理解为两个主要步骤:编码和生成

1. 编码

首先,Sora会将输入的视频数据进行压缩,将其转化为一种低维的潜在表示形式。这个过程有点像我们把一个复杂的物体分解成简单的零件,方便我们后续处理。然后,这些被压缩的数据会被进一步分解成时空区块,你可以把它们想象成视频的“基因”,包含了视频的所有基本信息。

2. 生成

接下来就是生成阶段。Sora利用扩散模型的思想,从简单的噪声信号出发,逐步添加细节和模式,最终生成复杂的新数据。这就像我们根据零件重新组装出一个新的物体,只不过Sora的版本更加复杂和高级。

在这个过程中,Sora还利用了变换器(Transformer)的技术,这是一种非常擅长处理序列数据的模型。无论是语言还是视频,都可以看作是由一系列高维向量组成的序列,而变换器则能够很好地预测下一个向量应该是什么。

总的来说,Sora的工作原理就是先将视频数据进行压缩和分解,然后利用扩散模型和变换器技术逐步生成新的视频内容。

Sora 是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现 AGI 的重要里程碑。

三、Sora 视频能力清单

Sora 的能力到底多厉害?根据OpenAI披露的技术文档,盘点了14条之多,本文将针对每一条做更加深入的分析和理解,并且用通俗易懂的语言进行解释说明,并会增加该能力在可能的领域将有什么样的应用。看完本文,相信你一定会对 Sora 有更深刻的认识,并有可能结合自己的工作和生活,找到结合的场景,产生如何运用它的创意。

Sora能力清单:

  1. 长视频
  2. 多机位
  3. 多角色
  4. 多分辨率、任意宽高比尺寸
  5. 语言理解:准确遵循用户提示的高质量视频
  6. 图片+提示=视频
  7. 在时间上向前或向后扩展视频
  8. 无缝的无限循环视频
  9. 视频到视频编辑:零镜头改变输入视频的风格和环境。
  10. 连接视频:两个视频穿插衔接
  11. 图像生成能力:分辨率高达 2048×2048
  12. 3D 一致性
  13. 远程相干性和物体持久性
  14. 与世界互动
  15. 模拟数字世界

四、Sora 的视频能力详解

接下来,让我们来看看每一个能力的具体情况吧。

1. 长视频

首先要申明的是,这里的长视频,并不是电影电视剧级别的长视频,而是相比其他文生视频友商的 5s 、 10s、15s相比的,可以连续生成 1 分钟的长视频。

这个 1 分钟在大模型生成视频领域是什么概念呢?Sora之于视频生成领域有多大的进步呢?单单从生成长度这个维度来看,就已经是吊打之前所有的模型了。

可以看下图:

之前大火的Pika、Runway等模型只能生成3秒上下的视频,最长的例如Kaiber也是只能生成16s的长度。而Sora可以实现1分钟的视频生成。

虽然1min对于抖音来说,也就是平常的短视频,但是对于学界来说已经是突破的进展了。

2. 多机位

视频的多机位是指使用两台或两台以上摄影机,对同一场面同时作多角度、多方位的拍摄。

多机位拍摄可使观众能够从多个不同的角度观看画面,给人以身临其境的感觉。它展现空间更全面、视点更细腻、角度更开放、长度更自由,给观众带来全方位、多角度的观赏体验。

Sora 可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。从 Sora 生成的这个视频可以看出,画面在不停地切换转场,似乎有一种电影画面镜头的感觉。

3. 多角色

Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。文生视频中的多角色指的是在由文本生成的视频中,能够展现出多个具有不同特点和情感表达的角色。

多角色的存在意味着模型能够理解和描绘出文本中提到的不同人物,并为他们设计合适的视觉形象和动作,使得视频内容更加丰富和真实。具体来说:

  1. 角色的多样性:模型能够根据文本描述创造出不同的角色,每个角色都有其独特的外观、服装和行为特征。
  2. 情感表达:角色能够展现出与文本描述相匹配的情感状态,如快乐、悲伤或愤怒等。
  3. 交互和动作:在视频中,这些角色可以进行交互,执行动作,甚至参与到复杂的活动中去。
  4. 背景和环境的融合:角色不仅仅是孤立存在,他们还会与视频中的背景和环境相融合,形成一个连贯的故事情境。

例如下面的视频例子:

大家可以看一下视频,体会一下多角色的效果。

提示语:一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。

从提示语和生成的视频,我们来分析一下。

提示语说到需要有“白发梳得整整齐齐的老奶奶”、“几个幸福的朋友和家人”等多个人物角色。视频中都体现了,而且主次分明,有男有女,有老有少,层次丰富。

提示语也说到老奶奶就是祖母,祖母的表情是“纯粹的喜悦和幸福,眼中闪烁着幸福的光芒”,从视频中祖母表现出的笑容,我们确实能感受到她的喜悦和幸福,很有感染力。

家人的表情和动作,也符合生日场景,和主题保持一致,和主角一起分享快乐。同时,提示语中的“祖母穿着一件饰有花卉图案的浅蓝色衬衫”,体现得很到位。

这个视频很好地说明了,Sora 可以完成多角色的视频任务生成。但是,我们也看到了它对物理世界交互处理上的不足,因为老奶奶用力一吹,蜡烛并没有熄灭。而提示词也说了“蜡烛不再闪烁”,这一点,有待 Sora 继续进化升级。

4. 多分辨率,任意宽高比尺寸

其他友商或者过去的视频训练方法是,通常会将用于训练的视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为 256×256(正方形) 的 4 秒视频。也就是说,视频尺寸是固定的,这种方式,可能导致主角不在画面的中间或者合适的位置,可能会出现偏差。

Sora 采取的是保留原始视频的大小和分辨率,用原始长宽比对视频进行训练。这样训练出的Sora模型,可以在输出和生成视频的时候,改善视频画面的构图和取景。

也就是说,Sora可以直接以其原生宽高比为不同设备创建内容。例如宽屏 1920x1080p 视频、垂直 1080×1920 视频,以及介于两者之间的所有视频尺寸。

不同尺寸的视频对比播放效果:

原生宽高比为不同设备创建内容视频效果展示:

画面效果对比:

5. 语言理解:准确遵循用户提示的高质量视频

Sora之所以能根据语音指令生成高质量的视频,主要和他的训练模式有关,并且可以通过改变描述语言的局部信息,可以输出不同风格的高质量视频。

首先,他们训练了一个能够生成详细描述的字幕生成器模型,然后使用这个模型为所有的视频生成相应的文本字幕。这样做的好处是可以提高视频的文字准确性和整体质量。

想象一下,我们要教一台电脑如何自己制作视频。首先,我们需要给它很多有文字说明的视频,好让它学习怎么根据这些文字来制作相应的画面。但是,找到这么多正好配有详细文字的视频并不容易。

那我们怎么办呢?我们先用一个特殊的软件,这个软件就像是一个超级聪明的作家,这个软件就是Open的 DALL·E 3 中引入的重新字幕技术

它能够看视频然后写下非常详尽的描述,就好像是在给视频写剧本一样。我们把整个视频库都让这个软件过一遍,这样每个视频就有了一个详细的文字版“剧本”

接着,我们还用了一个像聊天机器人一样的工具,这个工具能把我们给出的一些简单提示或者想法,扩展成更长、更具体的故事。这就好比你给出一个故事的大纲,然后这个工具帮你把它填充成一个详细的故事。

有了这些工具后,我们就可以告诉电脑:“嘿,我想看一段山间清晨的视频”,然后电脑就会根据这个想法,利用之前生成的那些详细的故事(也就是文字字幕),来创造出一段美丽的山景早晨视频给你看。

总的来说,我们就是教了一台电脑,通过阅读详细的文字描述来制作和这些描述匹配的视频,而且还能用我们简单的提示来制作符合我们要求的视频。

描述视频的提示语中有4个变量,通过修改变量的描述,组合后就生成不同的视频。而且,Sora能准确理解描述的文字语言,在视频中非常好的体现。不管改变的是主体角色,还是穿着打扮,或者是事情发生的地点和周围环境。

例如OpenAI给出的效果示例。

第一个变量有4种情况,而后三个变量每个都有3种情况,那么总共可以组成的场景数量是 4 乘以 3 的 3 次方。

所以总的视频场景数为:4 * 3^3 = 4 * 27 = 108

因此,Sora可以生成并输出 108 个不同的视频。

示例1:主角是一个女人

示例2:主角是一个老人

示例3:主角是一个玩具机器人

示例4:主角是一只可爱的袋鼠

6. 图片+提示=视频

除了提示语文字生成视频外, Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。通过一张静态的图片+一段文字描述,Sora 可以生成一段视频。

输入:图像+提示语

输出:视频

我们可以看一下Open AI 提供的示例效果展示:

展示基于DALL·E2生成的示例视频和达尔·E3图片。

示例 1:一只戴着贝雷帽和黑色高领毛衣的柴犬。

示例2:不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物,所有怪物都在一个有趣的环境中互动。

示例 3:写有“SORA”的现实云的图像。

示例 4:在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。

7. 在时间上向前或向后扩展视频

Sora 还能够在时间上向前或向后扩展视频。例如,从生成的视频片段开始,向后延伸视频,使得多个视频的开头都不同,但是结局都是相同的,也就是殊途同归的感觉。这使得它能够创造出多样化的视频内容。

扩展功能的进一步解释:

  • 向后延伸:Sora可以从一个现有的视频片段出发,通过学习其视觉动态和内容,生成新的帧来扩展视频的时长。这意味着,它可以制作出多个版本的视频开头,每个开头都有不同的内容,但都平滑过渡到原始视频的某个特定点。
  • 向前延伸:同样地,Sora也能够从视频的某个点开始,向前生成新的帧,从而扩展视频至所需的长度。这可以创造出多种结局,每个结局都是从相同的起点开始,但最终导向不同的情景。
  • 殊途同归:利用Sora的时间扩展功能,可以创造出具有”殊途同归”感觉的视频序列。这意味着多个视频序列可能从完全不同的场景开始,但最终都汇聚到同一个终点,给人一种命运共同、目标一致的印象。
  • 内容创作与编辑:这种时间上的扩展能力为视频内容创作者提供了强大的工具。他们可以创造出具有复杂情节和多变结局的视频,或者为现有的视频素材增添新的创意元素。

Sora模型的时间扩展功能为视频编辑和内容创作提供了前所未有的灵活性和创造性。它不仅能够生成无限循环的视频,还能够按照创作者的意图制作出具有特定结构和风格的视频作品。

8. 无缝的无限循环视频

什么是无限循环视频?

无限循环视频是一种视频格式,它能够在播放结束后自动重新开始播放,形成一个看似无休止的循环。这种视频通常用于展示连续的动作或者场景,比如动态背景、滚动图片展示、动画角色行走等。

在视频编辑和动画制作中,,非大模型生成的做法是,专业人士通过特定软件如Adobe Premiere Pro(PR)、After Effects(AE)等来创建无限循环视频。有学习成本和一定的门槛,也比较费时费力。

Sora生成无限循环视频的方法:

Sora从一段现有的视频片段出发,通过所谓的“视频到视频编辑”技术,实现视频内容的前后扩展,从而创造出一个可以不断重复播放的视频流,这就是无限循环视频。

以下是 OpenAI 给出的效果示例视频:

具体来说,无限循环视频有以下特点:

  • 无缝连接:视频的结尾能够平滑过渡到开头,没有明显的断裂或不自然之处,给观众带来连贯流畅的观看体验。
  • 可定制性:基于Sora模型的灵活性,用户可以根据需要设计特定内容或风格的无限循环视频,比如将某个场景或者动作不断重复。

Sora生成的无限循环视频是一种创新的视觉媒体形式,它不仅展示了生成型AI模型的强大能力,也为视频内容创作提供了新的可能性。Sora 的这个能力,后续在落地应用的时候,或许是有具体场景的。

9. 视频到视频编辑:零镜头改变输入视频的风格和环境

Sora利用了先进的深度学习模型,特别是扩散模型的视频编辑技术,能够根据文本提示零镜头地改变视频的风格和环境。这种方法使得视频编辑变得更加灵活和高效,用户可以通过简单的文本描述来实现复杂的视觉效果。

以下是SDEdit技术的一些关键特点:

  1. 文本条件编辑:根据提供的文本提示来理解和执行视频编辑任务,提高了编辑的直观性和易用性。
  2. 风格和环境变换:利用这项技术,可以轻松改变视频的风格和环境,例如将一个场景转换为另一个完全不同的环境,如从室内转到茂密的丛林中。

Sora的视频编辑带来了革命性的变化,它不仅提高了编辑的效率和准确性,还为用户创造了无限的可能性,使他们能够在不需要专业视频编辑技能的情况下,实现复杂和创意的视频效果。

随着技术的不断进步,未来我们可以期待更多类似SDEdit的创新应用,进一步推动多媒体内容创作和消费的边界。

10. 连接视频:两个视频穿插衔接

Sora能够通过插值技术,在两个不同主题和场景的视频之间创建无缝过渡。这种能力得益于Sora的高级插值技术,它可以在不同的视频内容之间进行有效的混合和融合。

这项功能的特点和价值有:

  1. 视频插值:Sora能够在两个视频片段之间进行逐渐的插值,这意味着它可以创造出一个过渡视频,使得两个截然不同的视频平滑地融合在一起。
  2. 混合和融合视频内容:Sora展现了在有效混合和融合不同视频内容方面的强大能力,它可以在两个视频之间进行插值,创造出一个中心视频,这个视频在左右两个视频之间实现了平滑过渡。
  3. 保持视觉质量和忠实度:在进行视频插值和过渡的同时,Sora能够保持视频的视觉质量,并且对用户提供的指令保持高度忠实,确保生成的视频内容符合用户的需求和预期。
  4. 无缝过渡:通过插值技术,Sora确保了即使在主题和场景构成完全不同的视频之间,也能够实现流畅的过渡效果,这对于视频编辑和创作来说是一个非常有用的工具。

示例效果解析:

Sora的这些功能极大地扩展了视频编辑的可能性,使得创作者能够更加自由地表达自己的创意,同时也为视频编辑领域带来了新的技术和方法。

这种技术的应用前景广阔,从电影制作到广告创作,再到社交媒体内容的生产,都可以通过Sora来实现更加流畅和创新的视频体验。

11. 图像生成能力:分辨率高达 2048×2048

Sora的图像生成能力是通过在时间范围为一帧的空间网格中排列高斯噪声块来实现的。这种方法允许模型生成各种尺寸的图像,分辨率高达2048×2048

效果示例1:秋季女性特写肖像照,极其细节,浅景深

官方示例图片:

具体来说,Sora的图像生成过程包括以下几个关键步骤:

  1. 初始化空间网格:首先,Sora会在时间范围为一帧的空间网格上进行初始化,这个网格构成了图像生成的基础结构。
  2. 排列高斯噪声块:接着,Sora在这个空间网格中排列高斯噪声块,这些噪声块是随机生成的,但会逐渐被模型转化为有意义的图像内容。
  3. 应用扩散模型:Sora利用扩散模型对噪声块进行处理,通过一系列的迭代过程,逐步将噪声转化为图像的细节和特征。
  4. 生成高分辨率图像:通过深度学习模型的训练,Sora能够生成高质量、逼真的图像。这些图像不仅在视觉上吸引人,而且与现实世界中的物体和场景非常相似。
  5. 灵活性:Sora的图像生成过程是可调整的,用户可以通过改变模型的参数来控制生成图像的风格、细节程度等。
  6. 广泛的应用:由于其强大的图像生成能力,Sora可以被用于多种应用,包括但不限于艺术创作、游戏开发、媒体娱乐等。

总的来说,Sora的图像生成能力展示了其在视觉创作领域的强大潜力,在落地应用方面可满足不同场景和需求。

12. 3D 一致性

Sora能够生成具有3D一致性的视频,确保了在动态摄像机运动中人物和场景元素在三维空间中的一致性

Sora的这一能力体现在其能够模拟现实世界中的动态摄像机运动。无论是摄像机的平移、倾斜还是旋转,Sora生成的视频都能保持物体和场景元素的连贯性和稳定性,就像在真实的三维环境中一样。这种3D一致性不仅增强了视频的真实感,也是对视频生成模型在理解和模拟现实世界方面能力的体现。

具体来说,Sora的3D一致性包括以下几个方面:

  1. 长程一致性和物体永久性:在生成长视频时,Sora能够保持时间上的一致性,即物体和场景元素在视频序列中持续存在,不会突然出现或消失。
  2. 模拟物理世界:Sora能够在没有明确的3D建模或物体识别的前提下,模拟现实世界中的人和动物的动作以及环境变化。
  3. 新兴能力:这些3D一致性的特性并不是预先设计好的,而是在大规模训练数据上自然涌现出来的能力。

总的来说,Sora的3D一致性是其在视频生成领域的一个重要突破,它不仅提升了视频的真实感,也为未来视频内容的创作和编辑提供了更多的可能性。通过深度学习和大规模训练,Sora展现了人工智能在理解和生成复杂视觉场景方面的显著进步。

13. 远程相干性和物体持久性

Sora展现出了在视频生成中的远程相干性和物体持久性,这体现在其能够在长视频中有效地对短期和长期依赖关系进行建模

远程相干性和物体持久性是视频生成系统中至关重要的特性,它们确保了视频内容在时间上的连贯性和逻辑性。Sora的这些能力具体表现在以下几个方面:

  1. 保留人、动物和物体:Sora能够在视频中持续跟踪人、动物和物体的存在,即使这些元素被遮挡或暂时离开画面,也能保持一致性。
  2. 多镜头生成:Sora能够在单个视频样本中生成同一角色的多个镜头,这意味着它能够处理和维持角色的不同视角和场景切换。
  3. 外观保持:在生成的视频中,Sora能够保持特定物体或角色的外观一致性,即使在视频的时间跨度较长或场景变化较大的情况下。
  4. 解决遮挡问题:当视频中的对象被遮挡时,Sora能够利用其对场景的理解来预测这些对象的运动和位置,从而保持场景的连贯性。

在这上面这个例子中,窗台上的狗,即便被多次遮挡,还是会展示原本的样子,并没有改变主题的样式,持久存在。

通俗的理解如下:

当我们说Sora具有远程相干性和物体持久性时,我们是在谈论它制作视频的能力,特别是它如何处理视频中随时间发生的变化。想象一下,你正在看一部电影,电影中的角色或物体即使不是一直出现在屏幕上,你也记得他们。这就是远程相干性。

而物体持久性意味着即使东西暂时消失了,比如被其他物体遮挡,我们也能在心中记住它的存在,并且在它再次出现时,我们知道那还是同一个物体。

简单来说,Sora在制作视频时能够记住之前发生的事情,并且确保事情的连贯性。如果视频中有个人走进门后不见了,Sora可以做出这个人是继续走路,而不是突然在别的地方出现或者消失不见。这就像是在讲故事时保持故事线一致,让听众不会感到困惑。

此外,如果视频中有多个场景显示同一个人,Sora能确保这些场景中的人的外观和行为是一致的,就好像是在拍摄电影时从不同的角度拍摄同一个演员一样。

这样的能力对于制作看起来真实且连贯的视频非常重要,尤其是在视频很长或者包含许多复杂场景的时候。Sora通过复杂的计算和学习大量的数据来做到这点,使得它能生成高质量的视频,即使那些视频中有很多动作和变化。

14. 与世界互动

Sora能够模仿一些我们在日常生活中的行为和动作。比如说,就像一个画家在画布上画画,他每画一笔,画布上就会留下痕迹,这些痕迹会一直保持在那里;或者一个人在吃汉堡时,每咬一口,汉堡上就会留下咬过的痕迹。

Open AI提到的“索拉有时可以用简单的方式模拟影响世界状况的动作”里面的“世界状况”可以理解为周围环境的样子或状态。Sora能模拟出我们对这个世界做出的一些改变,比如添加新的东西(就像画家的笔触)或者改变已有东西的状态(就像被咬过的汉堡)。

这些动作改变了原本的状况,并且这种改变是持久的。这就像是在一个视频游戏中,你做出的行动(比如移动角色或建造东西)会改变游戏世界,并且这些改变会被记住,不是暂时的。

所以,简单来说,就是Sora可以模仿我们在现实世界中的某些行为,并且让这些行为在虚拟的世界里留下来,看起来就像是真的发生了一样。

15. 模拟数字世界

当我们说Sora可以模拟数字世界时,我们是在说它可以模仿像视频游戏这样的虚拟环境里发生的事情。比如,想象一下流行的视频游戏《我的世界》(Minecraft),这是一个玩家可以在里面建造东西、探险的游戏世界。

Sora能做到的酷事包括:

  1. 控制游戏中的玩家:Sora可以像游戏玩家一样控制《我的世界》中的角色,就是在游戏中扮演玩家的角色,并且根据一套基本的规则或策略来操作,比如让角色去跑步、跳跃或挖掘。
  2. 高质量渲染:Sora还能够实时渲染游戏世界和其中的各种动态效果,使得整个游戏体验既真实又细腻。就像是在高清电视上玩游戏一样。
  3. 动态处理:Sora还能处理游戏中的动态变化,比如角色的动作、物体的移动,或者是时间的流逝(比如游戏中的日夜更替)。
  4. 零样本能力:这个术语可能听起来有点复杂,但它其实就是指Sora可以通过简单的提示(文本)——比如,只要给出含有“我的世界”这个关键词的标题或提示——Sora就能立刻理解并执行相关的任务,无需事先进行任何准备。

所以,用更容易理解的话来说,Sora就像一个超级电脑玩家,能够同时玩很多《我的世界》,并且让这些游戏看起来和运行得都非常棒,而且它还能很快地开始做这些事情,只需要给它一个简单的提示。

这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

五、Sora 视频处理上的弱点

当前的Sora模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。

Sora模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。

Sora 官网 po 出了 5 个有缺陷的视频,包含了比较典型的复杂屋里场景。包括:人体姿态处理错误、多实体场景处理难、不准确的物理建模和不自然的物体“变形”、物理交互不准确、多个角色之间的复杂交互等。

不仅让我们看到了大模型文生视频目前存在的能力缺陷,也看到了更多创意的空间。一些对物理世界的扭曲变形,空间奇幻的情节,可以利用在更多具有创意的视屏中。

5 个视频截图预览:

  1. 跑步的人
  2. 五只灰狼嬉戏
  3. 篮筐爆炸
  4. 椅子变形乱飞
  5. 吹不灭的生日蜡烛

六、Sora的优缺点对比分析

1. 优点

  • 强大的视频生成能力:Sora能够将文本描述转化为高质量的视频内容,具有强大的视频生成能力。这使得它能够满足多种应用场景的需求,如广告创意、教育培训、娱乐产业和新闻传媒等。
  • 高效的生成速度:Sora在生成视频时具有较高的效率,可以在短时间内生成多种方案供用户选择。这大大提高了广告创意、教育培训等领域的工作效率,降低了制作成本。
  • 良好的可定制性:Sora具有一定的可定制性,用户可以根据具体需求调整模型参数和输入数据,以获得更符合要求的视频生成结果。这为各行各业的定制化应用提供了可能。

2. 缺点

  • 数据质量和数量依赖:Sora的性能在很大程度上依赖于训练数据的质量和数量。如果训练数据存在偏差或不足,可能会导致生成的视频内容存在质量问题,如模糊、失真等。
  • 泛化能力有限:尽管Sora可以在多种场景下生成视频,但其泛化能力仍然有限。在某些特定领域或场景下,Sora可能无法生成符合要求的视频内容,需要进行更多的数据收集和模型训练。
  • 计算资源需求较高:生成高质量的视频内容需要消耗大量的计算资源,包括高性能的CPU、GPU等。这可能会增加使用Sora的成本和门槛,限制其在某些资源受限场景下的应用。

七、可能的应用领域

Sora是一个能够生成视频的高科技模型,它可以用在很多不同的行业里。

1. 广告创意

想象一下,你是个广告设计师,想要快速做出很多酷炫的广告视频。你可以告诉Sora你想要什么样的广告,比如故事内容、风格等等,然后Sora就能帮你做出好几个视频供你选择。这样不仅节省时间,还能让你的广告看起来更专业、更有创意。

2. 教育培训

如果你是老师,想给学生们制作有趣的教学视频,Sora也能帮忙。你只要输入教学内容的文字,Sora就能根据这些文字生成视频。这样的视频能让学习变得更有趣,也更容易吸引学生的注意力。而且,如果学生觉得太难或太简单,Sora还能调整视频内容,让每个学生都能跟得上。

3. 娱乐产业

电影和电视剧制作人现在也可以利用Sora来制作视频。比如说,如果你想做一个特效很棒的科幻电影,Sora可以帮助你生成一些看起来很真实的场景和角色动画,这样你就不需要花大价钱请特效公司了。

4. 新闻传媒

新闻机构也可以用Sora来快速制作新闻视频。当有重大新闻发生时,记者可以输入新闻的关键信息,Sora就能生成相关的视频新闻,让观众更快更直观地了解发生了什么事。

八、Sora 对产品经理的启示

对于产品经理来说,Sora的发布可能意味着新的机会和挑战。

Sora就像是一个神奇的视频制作机器人,产品经理们可以考虑怎么把这个机器人的能力用到自己的产品上去。下面就是一些关于这个机器人能给我们带来的点子和需要注意的地方,以在线教育产品为例:

1. 提速

  • 咱们的产品要是需要快速输出大量视频内容,比如短视频平台或者社交媒体,那Sora就能帮咱们省去不少拍摄和后期的时间和成本。

例子:想象一下,在线教育平台需要为不同的学科制作大量的教学视频。利用Sora,产品经理可以快速生成这些视频,比如把数学公式和解题步骤直接转换成视频教程,大大节省制作时间和成本。

2. 用户参与

  • 想让产品的用户互动更活跃?咱们可以让用户输入自己的想法,然后通过Sora生成视频,这样用户就会觉得咱们的产品既有趣又新颖。
  • 例子:为了让学习体验更加个性化,教育产品可以让学生描述他们想要学习的主题或问题,然后Sora就能生成一个定制化的教学视频,让学生感觉更像是一对一辅导。

3. 个性化推荐

如果咱们的产品涉及到视频推荐,比如新闻APP或者视频网站,Sora可以根据用户的观看历史和喜好来生成他们可能感兴趣的视频内容。

例子:基于学生的学习进度和兴趣,Sora可以生成适合他们当前水平的视频内容。比如,如果一个学生在数学上遇到了困难,系统可以自动生成更多关于基础数学概念的视频来帮助他。

4. 数据洞察

  • Sora用得好,就能给咱们提供一大堆用户喜欢什么、不喜欢什么的数据分析材料。这些数据对于优化产品设计、改进算法都是金矿啊!
  • 例子:通过分析Sora生成的视频哪些被学生观看最多次,哪些得到了最高的评价,产品经理可以了解哪些教学内容最受欢迎,从而调整课程内容和推荐算法。

5. 创新驱动

  • 把Sora整合到产品中,能让咱们的产品在激烈的市场竞争中脱颖而出,成为行业的焦点。作为产品经理,得考虑怎么包装这项技术,让它成为咱们产品的卖点。
  • 例子:在线教育市场竞争激烈,但如果你的产品能提供即时生成的动画教学视频,这就能成为一个巨大的卖点。比如,Sora可以根据课本内容生成有趣的动画解释视频,让学习变得更生动。

6. 合规与安全

  • 虽然Sora能做出很棒的视频,但咱们也得注意版权、隐私这些问题。得确保生成的内容不会侵犯别人的权益,也要保护用户的个人信息不被滥用。
  • 例子:虽然Sora可以生成各种视频,但作为负责任的在线教育产品,我们需要确保所有内容都是教育合适的,没有版权问题。同时,也要保护学生的隐私,不泄露他们的学习数据。
  • 作为产品经理,你可以想想怎么利用Sora这个视频制作的“黑科技”,让你的产品变得更好用、更吸引人。同时,也要考虑如何让用户放心使用,毕竟用技术也得讲究个度嘛。
  • 九、总结

在这篇文章里,咱们可是把Sora这个牛气的视频制作工具给扒了个底朝天。咱们不仅搞懂了它能干啥,还看到了它的强大之处和有些小瑕疵。从广告到教育,再到娱乐和新闻,Sora都能派上大用场。对于产品经理来说,这玩意儿简直就是个神器,能让产品更上一层楼。

看着Sora这么厉害,咱们也得想想,将来这技术还能怎么发展。对于产品经理,抓住这个机会,用好了Sora,那产品绝对能火。希望Sora能越来越棒,做出更多酷炫的视频,同时也得保证合法合规,让用户用得放心。

最后,希望这篇文章能给各位读者带来点灵感,不管你是做产品的还是对这技术感兴趣的,Sora都证明了一点:未来的视频制作,人工智能绝对是个大有可为的领域。咱们一起期待吧,看看这项技术还能给咱们的生活带来哪些新奇的变化!

 

作者:Echo 产品论

来源公众号:产品经理的逻辑与审美

]]>
Sora对营销行业有何影响? //www.f-o-p.com/338068.html Sat, 24 Feb 2024 00:00:45 +0000 //www.f-o-p.com/?p=338068

 

2022年横空出示的ChatGPT对内容营销带来了一波冲击。时隔两年,OpenAi再次毫无预兆地发布了首个视频生成模型Sora。这段一分钟的视频里,从主要人物到背景人物,从近景到远景,细致、逼真的画面和流畅转换的镜头几乎以假乱真,有人甚至说“整个视频行业饭碗要被端”。

和ChatGPT一样,Sora的惊艳亮相无疑令人振奋,它的出现必然会影响到广告营销行业。即便短期内颠覆的可能性较小,且尚未对公众全面开放,但如何站在Ai这个巨人的肩膀上,激发更多人的创作力是值得积极思考的事。

Sora会给广告营销行业哪些可能性?本文将从几个角度带来一些思考分享。

01 视频制作降低门槛,实现降本增效

根据文本自动生成视频其实并不新鲜,但Sora之所以成为“王炸”,主要是在视频生成中实现了几点突破。

一个是显著的时长突破,目前Sora可以输出时长达到1分钟的视频,包含高度细致的背景、复杂多角度的镜头、富有情感的多个角色。再一个是长文本的理解能力,和原先的AI 视频生成不同,Sora 已经具备理解文案,并基于文案进行发挥和拓展的能力。

此外还有三维空间连贯性、长期连续性和物体一致性、视频扩展与连接功能、模拟与互动等等优势,Open AI也因此自称Sora是“世界模拟器”。

犹如ChatGPT擅长处理数据和文字,因此程序员、分析师等数字技术类工作和文案、新闻等内容创作类媒体工作率先成为被“替代”的目标,那么Sora的出现最直接冲击的就是整个视频领域,尤其是AGI视频的生存空间,

Sora让内容制作的门槛大大下降,成本降低,周期加快,尤其对于一些标准化的广告内容,比如品牌产品的介绍说明类短视频,或者电商网页的创意广告,Sora有机会成为这部分基础类视频的生产者。

这意味着更多的品牌有机会投入更少的视频制作成本,用更少的资金、时间、人力制作出数量更多的视频内容用以营销,更重要的是Sora作为创作类工具可以大大降低试错成本,帮助品牌实现降本增效。

02 创意idea越来越值钱,内容营销“强者恒强”是趋势

从Sora的技术逻辑来看,许多工作都可以由它完成,但也有不少业内人士认为不用将其“神话”,其实用价值还值得怀疑,尤其是不具备创作的灵魂,也就是AI之于人类永远无法取代的核心。

这一点体现在Sora的技术细节上。根据公开的信息,Sora的技术路线继承了此前公开的DALL-E文生图模型,有一定程度的创新,但并非颠覆性的面,因此当下Sora不太可能产生真正“原创性”的内容,依然需要高度依赖人为调教。

这意味着,品牌虽然在营销链路中能够用更低的成本得到一个高质量、视觉效果绝佳的传播视频,但其内容质量,创意程度还将高度依赖人为的创造力,只有具备核心的创造力才有可能指导并“投喂”Sora这一类的工具为其提供后续的创作服务。

所以未来品牌营销,依然是内容营销“强者恒强”的趋势,尤其是在AIGC的加持之下,只有足够优秀的内容才能够享受时代的红利。

03 垂类、细分定制的需求得到满足,提升转化可能性增强

根据Sora团队公布的所有生成视频作品,我们能看到Sora的应用前景无比广阔。比如在个人层面,可以快速创建个性化的故事、家庭录像,甚至是基于想象的概念可视化。

在专业工作环境中,Sora可为新闻编辑室提供即时的可视化新闻报道,为设计师提供创意原型,甚至在建筑设计、游戏开发等行业中辅助构思和预览设计成果。

更深层次地看,Sora可以释放不同需求下的创作需求,折射到品牌营销上,Sora有可能会帮助品牌做更精细化的用户营销,这也是整个营销行业的大趋势。

或许品牌能够通过Sora,可以根据不同用户的数据生成有针对性的营销视频并进行精准推送,不仅节省了品牌一大笔成本,缩短营销闭环链路,对于消费者也能够更好的实现个性化定制。

其实精细化营销正是当下很多品牌正在做的事情,通过市场上的营销服务商对目标人群进行数据洞察分析再进行投放,往往这个过程会很漫长,同时效果也难以保证。

Sora在未来有极大的可能性的帮助品牌更快的实现多种类型和风格的营销视频,给不同偏好的消费者带来更针对性的体验从而了解购买动机和购买路径,更重要的是这个过程中可以不断的快速调整和优化,毕竟Sora的“一键生成”打破的是时间和空间的距离,如同业界大佬在看过Sora制作的视频后感叹的一样:AGI的实现将从10年缩短到1年!

04 与用户深度交互,专业化工具让全民可参与

在Sora官网上,OpenAI写道:“我们正在教AI理解和模拟运动中的物理世界,目的是训练模型帮助人们解决需要现实世界互动的问题。”

其实自AIGC问世以来,就已经逐渐在颠覆传统的营销模式,而在今年龙年开局营销中,为数不多的亮点就是AI带来的。

农夫山泉生肖龙AI绘画小程序上线,短短20天就吸引广大网友创作了一百多万张龙宝宝画作;可口可乐“龙连你我”系列活动用AI带领百万人冲击吉尼斯挑战;康师傅推出了大型用户AI共创《万里山河》;安慕希基于AI绘图的抖音挑战赛狂揽2.5亿次播放……

品牌之所以对AI赛道关注,目的就是对下一轮增长风口的押注,因为广告营销的本质是服务更广的人群,而AIGC基于强大的语言模型和流畅的用户互动,可以在最短时间内给用户提供定制的体验,这也是ChatGPT、Sora能够带给品牌的想象力所在,即从文字到图片、视频,AI的生成能力已经可以应用于所有人类主流的传播介质中,这几乎决定了AIGC的产品应用是没有上限的。

所以未来企业可以尝试在文字、语音、图片以外的视频互动、游戏开发等创意领域,如果能够在早期利用Sora技术开发出用户的社交互动化产品或者项目,就可以在市场上获得竞争力优势,同时能够利用AI技术优化业务流程、提升产品质量或服务,企业可以更好地满足客户需求,增强市场地位。

最后的结语

Sora到底能带给营销行业多大程度颠覆?理性来看它的商业和想象力空间的确令人向往,但它仍然存在诸多不足。

如同ChatGPT能够快速产生质量不错的内容这点毋庸置疑,但由于ChatGPT是通过连接大量的语料库来训练模型,这些语料库基于互联网开放信息,包含了真实世界中的对话,导致了产出内容存在很多逻辑性等错误,仍然离不开人脑的把控。

同样的Sora目前还存在诸多不足,比如难以准确的描述复杂场景中的物理现象,无法理解一个事例中包含的因果关系,甚至难以精确的描述时间发生的事件。

这也是目前 Sora 还未对公众开放的原因,且OpenAl也表示目前没有计划向公众发布它,且正与与第三方安全测试人员共享该模型。

不过这并不影响从业者对于Sora的思考和期待,毕竟它在某一天或许会成为营销领域里绝佳的创作力工具,想象一下,如果仅仅通过输入文本、视频素材,就能立刻得到一条高质量视频,这种体验就已经足够有吸引力了。

对于 OpenAI 发布首个视频生成模型 Sora,你怎么看?欢迎评论区一起互动交流。

 

作者:卡特

来源公众号:新营销(ID:newmarketingcn)

]]>
Sora官方技术报告详解 //www.f-o-p.com/338057.html Fri, 23 Feb 2024 03:54:11 +0000 //www.f-o-p.com/?p=338057

 

文章基于OpenAI官方公布的Sora技术文档,从模型能力、训练方式和技术原理三个角度出发,剖析Sora的出现对人工智能的发展,到底意味着什么?

一、什么是Sora

2024年2月16日凌晨(美国时间2月15日)OpenAI推出视频生成模型:Sora,一款文生视频(text-to-video)的模型。

Sora是通过学习视频内容,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。

我们来直观地感受一下什么是Sora?

这是一段提示词(Prompt):

A Chinese Lunar New Year celebration video with Chinese Dragon

翻译成中文:

与中国龙庆祝中国新年。

文生视频。现在文字有了,我们来看视频效果。

可以发现无论是舞龙的细节表现,还是人群跟着舞龙队伍的真实感,效果是如此的逼真。

当然Sora的能力还远不止如此,除了支持文字生成视频外,还支持文字+图片、文字+视频、视频+视频的方式创作新的视频内容。

二、Sora模型能力介绍

能力一、Sora生成的视频内容,符合现实世界的物理规律

Sora生成的视频内容,符合现实世界的物理规律。

这说明Sora学习的不仅仅是视频中的画面,还在学习视频中元素之间的关系,学习现实世界中的物理规律。

比如:一个人咬一口汉堡后,能够在汉堡上能够留下咬痕。

能力二、Sora能够生成一分钟的高清视频,并且支持生成不同时长、长宽比和不同分辨率的视频与图像

对于视频创作者而言,能够基于不同创作平台视频尺寸要求来生成视频内容。

能力三、Sora支持文字+图片生成视频

能力四、Sora支持连接视频

Sora支持在两个视频之间进行过渡处理,从而实现视频之间的无缝过渡。

能力五、Sora支持文字+视频生成视频

Sora能够基于文本提示,从而改变原视频的风格化和视频中的元素。

能力六、Sora支持拓展视频

Sora能够在原视频的前后延长和拓展视频。

案例中三个视频,它们都是从生成的视频片段开始向前进行了视频的延伸。

因此,这三个视频的开头都不同,但结局都是相同的。

能力七、3D画面的一致性

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

三、Sora模型训练方式

在官方技术报告中,有一段这样的表述:

Sora is a generalist model of visual date

翻译成中文:

Sora是一个“通用模型”。

但要训练一个通用模型的前提条件之一:“大规模的训练数据”。

Sora是怎么训练的呢?

分为一下两步:所有数据皆为“我”所用、帮助AI更好的学习。

1. 所有数据皆为”我”所用

沿用ChatGPT之前大力出奇迹的训练方式:通过互联网的海量数据进行训练后,从而获得了通用的模型能力。

互联网中的庞大数据,之所以能被GPT进行训练,是因为在训练前进行了【数据标记处理】,英文被称之为Tokenization。

大白话说就是:将训练的文本内容转译为计算机能够理解的语言。

Sora沿用了GPT标记训练数据集的思路,对视频内容进行标记。视频标记被称作为visual patches,中文翻译过来叫做:视觉补丁,其核心的作用就是将视频内容,标记后,转译为计算机能够理解的语言。

那有了视频标记后,如何让标记的速度更快?标记的质量更高?

就引出了下面一项技术。

2. 对训练数据集进行处理,助力AI更好的学习

Sora在对数据集处理方式时沿用了DALL-E3的Re-Captioning技术。

Re-Caption技术简单的来说是根据输入的图像生成对应的图像描述的文本内容。

这样做的好处:

AI学习到的不再是抽象的图像元素,并且1000个人有1000个哈姆雷特,通过图像+图像描述的方式,能够指引AI去人类图片的思路。

Sora运用该技术的具体的步骤是:

  • 首先训练了一个captioner model,它的作用就是能将视频内容转译为文本的描述内容。
  • 然后使用这个模型将训练集中所有的视频,逐个转译为文本内容后,再结合对应的视频进行训练,从而提高AI的学习质量。

四、Sora模型技术原理

Sora目前运用的是Diffusion model(扩散模型)+ Transformer两种技术架构的结合。

  1. Diffusion model:是一种生成模型,用于图像的生成。
  2. Transformer:是一种深度学习模型,最初用于自然语言处理,可以学习文本之间的依赖关系,也能够处理图片和视频的任务,如图像分类、视频理解。

咱们重点聊一聊Diffusion model(扩散模型)

这个技术路线和文生图的Stable diffusion的技术路线非常类似。

用一句话概括Sora扩散模型的实现过程:将原视频训练素材压缩后给Sora学习,学习如何将压缩后的视频内容还原和生成新的视频。

这里包含了两个关键步骤:Encoder-编码、Decoder-解码。

1)Encoder

Encoder就是将原视频进行压缩,压缩至一个低维度的空间,压缩后视频充满了噪点,Sora就是学习压缩后的数据。

2)Decoder

Decoder就是将压缩后的视频进行还原或创造,恢复至高清的像素空间。

那为什么Sora不直接拿原视频进行训练呢?

我们举个例子。

原视频进行Encoder编码后,整个视频的大小极具降低,所以训练的数据越小,消耗的算力资源越少,可训练的数据规模更大。

五、总结

Sora 建立在过去对 DALL·E 、GPT、Diffusion model 研究之上的,所以技术的爆发并非偶然,而是多项技术共同作用的结果。

那Sora的出现对人工智能的发展,到底意味着什么?

Sora的官方技术文档中有两句话让我印象深刻:

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction

翻译成中文:

我们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决现实世界中的交互问题。

OpenAI最终想做的,其实不是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。

而Sora,只是验证了,这条道路可行的一个里程碑。

Sora的出现,短期来看,能够提高创作者、影视从业者的生产效率;长期来看,AI能够更佳全面的理解人类生活中现实世界,AGI通用人工智能正在加速到来。

见字如面,希望文章对你有所帮助~

声明:文章中的视频内容均出自Sora生成

来源自OpenAI官方技术报告

Sora官方技术报告地址:https://openai.com/research/video-generation-models-as-world-simulators

 

作者:在野在也

来源公众号:在野在也

]]>