HappyHorse – 青瓜传媒

即梦、可灵、HappyHorse三强测评，谁翻车了？

青瓜传媒 — Thu, 30 Apr 2026 00:45:00 +0000

AI视频模型进入“三国杀”。

随着HappyHorse的正式公测，中国视频生成模型进入“三国杀”时代。

在过去半年里，字节的即梦（Seedance 2.0）、快手的可灵3.0、阿里的HappyHorse先后登顶 Artificial Analysis视频模型榜单第一。

「AIX财经」用六段统一的提示词对三款模型进行了横向测试——四组古典艺术题材、两组现代落地题材。这六组覆盖了AI视频生成关键的能力维度：动作叙事、静态情绪、多人调度、文化符号还原、现代写实质感、商业可用性等。

三家模型在叙事密度、镜头语言、文化辨识度上，给出了三种完全不同的解法，也在不同的环节翻车，如中文文字乱码、多人面孔的“克隆人”现象，以及对特定文化符号的还原失误等。

以下是完整的测试报告。

01 测试一：赵子龙单骑救幼主

提示词：

0-3秒：远景。黄昏战场，烟尘弥漫，残阳如血。一员白袍银甲的年轻将军单骑自远处疾驰而来，白马奔腾，红色披风在身后猎猎飞扬。他怀中紧抱一个襁褓婴儿，一手紧握长枪。

3-6秒：中景。镜头跟随推近，白袍上已溅有斑斑血迹，银甲反射夕阳余晖。他长枪一挑，挑落迎面而来的一名敌将，动作迅猛如梨花纷飞。四周曹军黑甲红旗如潮水般涌动，他穿插其中。

6-10秒：近景特写。将军回首一望，目光坚毅决绝，缰绳一带，白马长嘶人立，他低头看了一眼怀中婴孩，随即扬枪策马，冲入更深的尘烟之中。镜头定格于他冲入尘雾的背影。

整体：中国古典战争电影质感，冷暖对比强烈——白袍银甲与黄沙血色的对比，慢动作与实时动作交错，尘土飞扬，胶片颗粒感，自然光。参考《赤壁》《影》《满城尽带黄金甲》战场镜头美学，4K。

难点：多镜头、多景别、连续叙事；高速动作与慢动作交错；密集群体交互；特定历史风格与画面质感。

战争戏是影视拍摄难度最高的场面之一。模型生成单镜头大片感画面并不难，难的是连续切换景别还能保持叙事连续——马的颜色变了、披风消失、人物面孔在镜头切换间漂移，是这类生成最常见的翻车方式。

这段提示词把难度叠在了一起：景别从远景到近景，节奏实时与慢动作交错，赵子龙、白马等多主体调度，三层挑战同时存在。任何一层失控，画面就垮。

视频：长坂坡赵子龙（即梦版）

Seedance2.0的执行最完整。白马、银甲、红披风、怀抱襁褓、长枪、敌军红旗、夕阳战场这些提示词里的视觉要素几乎全部命中；赵子龙脸颊的伤痕、银甲上的血迹这类细节也按提示词如实生成。最关键的是叙事密度，它在10秒内完成了冲入战场—挑落敌将—回首决绝—冲入尘烟的完整动作弧线，几乎是对提示词的逐句还原。

视频：长坂坡赵子龙（可灵版）

可灵3.0单帧画面质感好，第5秒那一帧，盔甲花纹、披风纹理、群演调度等细节非常充实。但它实际叙事内容只完成了“冲入战场”这一个动作，即梦用4秒讲完的事，可灵用5秒只讲了一半。

视频：长坂坡赵子龙（HappyHorse）

HappyHorse在画面风格上偏离了提示词。提示词要求的是《赤壁》《影》一类的实拍电影质感，HappyHorse给出的却是3D游戏的CG画风，烟尘饱和度过高、写实感偏弱、背景群演面目模糊。在叙事密度上，它最弱。

02 测试二：黛玉焚稿

提示词：烛光昏暗的卧房内，一名病弱的年轻女子（林黛玉）坐于火盆前，手持诗稿缓缓投入火中。火光映照她苍白消瘦的面容，纸灰随热气飞起。镜头近景固定，极浅景深，光影对比强烈。

难点：静态情绪表演、”哀而不伤”的复杂情绪传达；古典室内空间的光影氛围；火焰与纸张的物理表现。

视频：黛玉焚稿（依次是Seedance2.0、可灵3.0、HappyHorse）

如果说赵子龙考验的是模型的动作能力，那黛玉焚稿考验的就是模型的表演能力。它没有剧烈动作、没有复杂场景，几乎所有信息都靠一张脸表达。这一组的真正难度在于复杂情绪的层次，模型必须在10秒内，通过面部微表情而不是动作来传达人物情感的复杂性。

Seedance2.0的表演水准接近古装剧的演员特写。视频中的黛玉情绪是克制、压抑的哀。后段有一帧人物含泪带笑、似哭非哭，表现出了黛玉“哀而不伤”的复杂感情。

可灵3.0把烛光、火盆、淡青色衣襟、深色木结构组成了一个冷暖对比的工整构图。它处理“焚稿”这个动作时给出了一个比即梦更具叙事铺垫的镜头——先凝视诗稿，再放入火焰，表达黛玉焚稿前的犹豫，但人物表演的层次稍弱。

HappyHorse开场把火焰直接挡在人物面前，后段镜头才切换到人物正面，人物眉头微蹙、眼眶泛红、神情哀痛，比可灵的人物情绪更有带动性，但更像是一种动漫女主式的夸张表达。

03 测试三：温酒斩华雄

提示词：温酒斩华雄，关羽推帘而入。古代军帐内，众将领围坐于桌前神情凝重。帐外远处传来马蹄声与金鼓声。一员红袍长髯的将军掀开帐帘大步而入，将手中物件掷于桌上。镜头从帐内众人转向帐门，跟随入帐之人转身回到桌前。

难点：多场景跨越叙事（帐内等候-关羽归来）；关羽人物形象的精确还原；多人凝视一人的场面调度；暗示性叙事（斩华雄不直接展示）。

视频：温酒斩华雄（依次是Seedance2.0、可灵3.0、HappyHorse）

这段提示词要求模型完成一个真正的电影叙事：两个空间（帐内、帐外）、两个时间（关羽离去、归来）、一组角色关系（凝重的众将VS归来的关羽），要讲一个事件。

主角辨识度也是难点之一。关羽是中国文化里高度符号化的形象，青龙偃月刀、长髯过腹、丹凤眼，任何一项缺失，这个人物就立不住。

这一组，三家模型都翻车了。

Seedance2.0几乎呈现了关羽的所有视觉符号。但视频后半段出现了空间穿模，关羽将手中物件原本搁在桌面靠近自己的一侧，下一帧却跳到了桌面另一侧，身旁众将的视线也随之转向另一边。主体一致性在10秒内出现了断裂。此外，提示词中“温酒”这一关键细节，即梦完全没有表现。

可灵3.0和HappyHorse的关羽辨识度都不足，红袍是有的，但长髯过腹这些关羽的核心视觉符号缺失。“斩首归来”这一核心动作两家也都没有表现。关羽手中之物被理解为酒壶，而不是华雄的首级。动作也变成了“温酒入帐”，叙事的核心反转完全消失。

值得专门指出的是，这一组镜头几乎集中暴露了AI生成多人时的标志性问题：几位将军的面孔高度雷同，同样的胡须、同样的发型、同样的盔甲，这是典型的“克隆人”翻车。

04 测试四：元妃省亲

提示词：夜晚的中国古典园林，亭台楼阁灯火通明，处处悬挂红色宫灯。香烟缭绕，花影婆娑。仕女们身着华丽古装在长廊中缓步行走。镜头缓慢横移，展现园林全景。柔和暖光，中国古典电影美学。

难点：多元素静态场景调度；复杂建筑空间还原；群体仕女形态一致性；古典园林夜景的光影氛围。

视频：元妃省亲（依次是Seedance2.0、可灵3.0、HappyHorse）

这组测试考验的是模型的东方美学还原能力，它不像战场戏那样靠动作密度赢得视觉刺激，而是靠静态画面里的元素精度。飞檐、雕梁、宫灯、长廊、香烟、水面倒影、人物服装，这些元素中任何一项出错，整个画面就会“塑料化”。

Seedance2.0的画面以人物为主体，叙事感最强。一队仕女缓步行进于水边长廊，服色错落有致，发髻整齐统一。镜头从水面倒影开始，逐步带出建筑、灯笼、再到行进的队列，信息密度层层递进。

可灵3.0的建筑更有质感，池塘雾气和水面倒影更是接近实拍。但开篇近5秒几乎是建筑空镜，人物只在画面边缘晃过；直到后半段镜头切换才出现仕女特写。在这组镜头设计上更重场景，轻人物。

HappyHorse前7秒全是空镜，仰拍灯笼、烟雾、阁楼，镜头在建筑间游移，完全没有人物。到最后2秒才让两位红衣绿裙的仕女缓步入画。虽然后两秒人物的服饰精度、面容质感、回廊光影都可圈可点，但整个视频没有表现出省亲主题。

05 测试五：早高峰地铁

提示词：早高峰的地铁车厢，镜头缓慢横移扫过几位乘客。有人低头看手机，有人靠窗打盹，有人带着耳机望向窗外。车厢轻微摇晃，窗外隧道灯光快速掠过。

难点：现代城市场景的真实质感；多人物群像；通勤者状态的精准刻画；地铁车厢内部细节。

视频：早高峰地铁（依次是Seedance2.0、可灵3.0、HappyHorse）

这组测试的是纯现代写实场景，任何一处违和，如错误的扶手形制、错位的广告牌、不像中国人的面孔、不真实的拥挤密度，都会让观众出戏。尤其值得指出的是，这组测试具有高度的地域性，北上广深的地铁几乎都有自己的车厢风格，人群的构成、车厢广告等细节很容易出现错位。

Seedance2.0在地域上出现了明显偏移。它的车厢内部精度接近实拍，不锈钢扶手、白色拉环、车门、广告位、座椅蓝色、人物姿态也很自然。但问题在于，画面整体看起来像韩国地铁，广告牌上的疑似韩文、车厢风格、人物面孔都偏韩系。

可灵3.0是三家中地域识别最准确的，车厢风格、宣传海报、广告LED屏、“禁止吸烟”标识等，都是国内地铁的标准配置。可灵的画面同样精度高，人物状态也真实。但它的问题是另一个维度的，车厢太空旷，不像早高峰。

HappyHorse是这一组的意外反超者。它最准确还原了早高峰的拥挤感，密集的站立通勤者、西装上班族在低头刷手机、戴围巾的中年女士、座位上闭眼休息的乘客。

06 测试六：林黛玉直播带货

提示词：现代直播间内，一位古装少女（林黛玉）坐于精美中式书房布景前，身着月白色绣花襦裙，手持一瓶护肤精华，面带浅笑娓娓而谈。她体态柔弱清瘦，眉间略带忧郁。背景有书架、瓷瓶、绿植，环形补光灯打在她脸上，桌前可见弹幕飘过的屏幕剪影。

难点：古今元素融合的合理性；直播间布景的现代真实感；古典人物气质的精确还原；产品特写的商业可用性；直播表演的微表情。

视频：林黛玉带货（依次是Seedance2.0、可灵3.0、HappyHorse）

这段提示词的难点不在于任何单一元素，而在于合理性，古装少女与现代直播设备的同框出现，既不能让观众笑场，也不能显得违和。

即梦的完成度最高，人物辨识度也最准。清雅气质、忧郁眉眼，黛玉的人物特征被准确捕捉。同时，环形补光灯、苹果笔记本、iPhone取景器、产品礼盒、新中式书房布景也全部到位。人物的口型自然、眼神温和、刺绣细节清晰可见。它让黛玉和直播间在同一个画面里看起来是合理的，而不是滑稽的。

可灵3.0在镜头视角上做了最大胆的设计。它没有正面拍“穿古装的人在直播”，而是给出了一个直播间外的观众视角：前景是一台显示着密密麻麻弹幕的屏幕，后景才是身着古装的少女在直播。这种视角设计还原了直播间这个空间的层次感，没有把它当成一个普通背景。但人物气质偏离了黛玉。

HappyHorse人物镜头出现了严重翻车。主播脸部被一块发光的白色光斑遮挡，可能是模型把环形补光灯的反射误生成在了人物面部上；产品特写镜头中又出现了三只手，这是AI生成手部时最常见的物理翻车之一。

值得注意的是，中文文字生成这个公认的软肋。可灵3.0和HappyHorse模型都给出了带弹幕屏的画面，但所有弹幕文字都是糊的乱码。

07 结语

这六组测试打下来，三家模型的水平差距明显。

Seedance 2.0是这次测试里综合完成度最高的，核心优势在于叙事密度，能在10秒内把提示词里的动作弧线基本跑完，赵子龙一战几乎是逐句还原，黛玉焚稿也给出了哀而不伤的情绪层次。但它并非没有短板，温酒斩华雄出现了空间穿模。

可灵3.0的单帧质量是三家里最稳的，黛玉焚稿的烛光构图、元妃省亲的水面倒影、地铁场景的标识细节，每一帧单独截出来都经得住放大看。但在连续叙事上仍有所欠缺，有时场景交代充分，人物和事件姗姗来迟。

HappyHorse作为三家里最新公测的模型，它在局部精度与某些场景表现突出，但整体稳定性与风格仍有待探索，例如，在赵子龙测试中给出3D游戏CG风格，元妃省亲前七秒全是空镜。

需要注意的是，不同效果背后，各家的收费也有差异。「AIX财经」同时购买了即梦、HappyHorse最高等级会员、可灵铂金会员，价格分别为499元、188元和186元，生成一段视频三家分别需要330积分、160积分和96积分。

另外，三家模型存在共同没有解决的问题，也代表着当前AI视频生成的天花板。例如，没有一家能在画面里稳定生成可读的中文，多人面孔一致性也是集体翻车点。

总结来看，三家模型都能生成好看的画面，但还没有一家能稳定生成一个完整的故事。AI视频生成要迈向“精准叙事”的专业创作门槛，还需要时间。

作者：陈丹编辑：魏佳

来源：定焦One

阿里神秘模型HappyHorse解析！

青瓜传媒 — Wed, 29 Apr 2026 06:04:53 +0000

过去一段时间，AI 视频圈最神秘、也最被惦记的名字之一，就是 HappyHorse。

它一开始没有大规模发布，没有铺天盖地的宣传，甚至连身份都带着一点悬念。结果却先在第三方视频模型榜单上杀了出来：文生视频、图生视频，几个关键榜单里都排到前列。很多人还没用上它，已经开始在问同一个问题：这到底是谁家的模型？

后来答案揭晓，HappyHorse 背后是阿里。

这就更有意思了，AI 视频赛道里又多了一个重量级玩家。前面有 Sora （节哀）、Veo、Kling、Seedance，大家已经打得热火朝天。现在 HappyHorse 入场，而且一上来就带着榜单成绩和神秘光环，热度自然被拉满。

我们正好拿到了体验机会，这个被传了很久、也被期待了很久的 HappyHorse，到底只是榜单上好看，还是已经真的能拿来做内容生产。

实测 HappyHorse

进入 HappyHorse 生成页面，分成两个大功能板块，生成视频和编辑视频。

生成视频中支持首帧模式，也是上传一张图，让 AI 依照图片生成后续动作。也支持最多 9 张图片的参考模式，用户可以上传 9 张自家宠物的照片，随后就能用 HappyHorse 生成以自家宠物为主角的视频。

在生成参数上，HappyHorse 给了多种选择。尺寸方面，它支持 16:9、4:3、1:1、3:4、9:16 等常见比例，横屏、方图、竖屏内容基本都能覆盖。分辨率最高可达 1080p。

时长方面，单条视频可以在 3 到 15 秒之间自由选择。它最多支持一次生成 4 段视频，相当于一次出多版结果，能明显降低视频生成里的“抽卡”成本。

视频编辑的参数比较少，上传视频后，用提示词进行修改，可以生成 720p 或 1080p 分辨率视频，也可以选择是否保持原视频音频还是用 AI 生成新音频。

测试 1：文生视频

prompts:

现代顶级战斗机飞行员驾驶先进战机进行高强度空战。画面以多机位快速切换呈现：高速俯冲、急转、翻滚、锁定、规避导弹，镜头在激烈的空中追逐与座舱内部特写之间来回切换。

切入飞行员侧脸特写，展现飞行员在高 G 过载下紧张而专注的反应；手部快速操作推杆、开关、按钮和档位控制器。随后镜头迅速切回战机外部，机翼划破气流，强烈风噪呼啸而过，发动机轰鸣震撼。

空中出现爆炸、导弹尾焰、剧烈机动和强烈镜头震动，摄影机高速跟拍战机穿越烟雾与火光，营造极度紧张、快节奏、沉浸式的现代空战场面。电影级质感，4K 超清细节，真实物理运动感，强烈动态模糊，快速移动镜头，震撼音效氛围，24 FPS。

视频特效很到位，无论是飞机的细节和云朵、天空的质感，都有电影感。但还有一些不足，比如仪表盘上的字母都是乱码。此外，导弹的数量不够合理，需要改进。

我们再来尝试更加精确，带有片段时间、人物动作，景别的提示词。

prompts:

一位身着中式服饰的人物站在中式厨房灶台前，以武侠功夫烹饪“宫保鸡丁”。整体画面流畅连贯，强调剧情推进、动作节奏与食材特写，镜头语言丰富，包含近景、中景、特写与动态跟拍，突出中式功夫与烹饪结合的视觉冲击力。

0-2 秒（开场）

近景快速推镜，人物立于灶台前，气沉丹田，单手猛然按向桌面，指节发力。案台微震，碗中的鸡丁、花生、干辣椒同时被震起，食材凌空悬浮在半空中。镜头给食材腾空的特写，画面富有力量感与戏剧性。

2-4 秒（起手式）

人物旋身起势，右手并指如剑，快速点向空中的鸡丁。指风凌厉，精准划开鸡肉纹理，鸡丁瞬间被分切成均匀小块。镜头跟随鸡丁运动轨迹，展现其在空中划出弧线，随后纷纷落入热油翻滚的铁锅之中。

4-6 秒（掌风滑炒）

人物沉腰扎马，双掌隔空对准铁锅快速运劲。掌风带动锅中鸡丁高速旋转、翻滚、滑炒，鸡肉在高温中迅速变色，表面油润透亮，受热均匀，呈现鲜嫩不柴的质感。镜头切入锅内食材特写，火焰、油光与翻炒动作同步增强。

6-8 秒（飞切配料）

人物侧身抬腿，脚尖轻挑案板上的黄瓜与胡萝卜，配料凌空飞起。下一瞬抬手出刀，刀光如电，干净利落地将配料瞬间切成整齐方丁。镜头以高速动态捕捉切割过程，配料切好后精准落入锅中，与鸡丁汇合。

8-10 秒（翻炒功夫）

人物单手握住锅柄，手腕骤然发力，使出高难度翻锅动作。铁锅上下翻飞，鸡丁、花生、干辣椒与配料在空中交织翻腾，动作潇洒利落，如舞剑一般行云流水。食材颗粒分明，不洒一滴汤汁，锅气十足。镜头加入跟拍和特写，强化热烈、香气四溢的感觉。

10-15 秒（收招成菜）

人物完成最后一记大幅度旋锅，铁锅在空中划出漂亮残影，所有食材稳稳回落锅中。随后顺势起锅装盘，将色泽红亮、鲜香诱人、油润酥香的宫保鸡丁精准盛入白瓷盘中。成品热气升腾，镜头定格在菜品特写上，背景虚化，人物在后景抱拳收势，整体画面干净利落，具有浓厚的中式武侠美学与美食质感。

这类功夫做菜的视频在短视频平台很火，我们可以看到 HappyHorse 精准还原了提示词中的时间约束。人物抬腿，右手并指如剑都很好的还原。但切菜的特效，最后锅有点飘，需要多抽几次卡，选择效果最好的。

测试 2：图生视频

我们先生成一张中国长城的图片，随后让镜头拉近看长城的细节。

promtps:

一张复古风格的长城地形地图平铺在桌面上，开场时仍然是平面的纸质图纸，纸张微微卷边，光线柔和，带有旧档案地图的质感。随后地图轻微翻动，纸面上的山体和长城缓缓从平面中隆起，变成立体纸雕沙盘。镜头顺势向前推进，沿着长城低空穿梭飞行，掠过城墙、烽火台和山脊，画面重点表现“从纸上长出来的长城”这种感觉。整体不是写实风景，而是复古地图、纸雕模型、微缩沙盘结合的视觉效果。最后镜头缓缓拉远，重新回到俯视角，完整看到整张立体化的长城地图，画面安静、精致，有档案感和历史感。

通过这段测试，可以认为 HappyHorse 做出图生视频，是理解图片内容的，从旧档案的长城平面图，拉近镜头变成立体纸雕，效果还原到位。此外，在镜头移动的时候，并没有破坏上传图片（第一帧）的内容。

我们再试试最近比较火的直播带货截图作为首帧，HappyHorse 能不能理解场景。

prompts:

9:16 竖屏，女装穿搭直播间。年轻女主播站在温暖时尚的服装直播间，身后是整齐的衣架和多套春夏穿搭，桌面上摆着牛仔裤、衬衫、针织衫和配饰。主播手拿一件蓝白条纹衬衫，对着镜头讲解版型。

开场镜头从衣架横向滑过，展示不同颜色的衬衫、外套和裙子，随后切到主播半身。画面上出现大字“穿搭推荐”“直播爆款”“第 2 件半价”。

中段主播将蓝白条纹衬衫举到胸前比划，镜头切换到面料特写，展示纹理、纽扣、领口和袖口。旁边弹出“显瘦遮肉”“清爽透气”“百搭不挑人”“通勤休闲都能穿”等标签。

随后加入试穿镜头：模特在镜前展示上身效果，转身、整理袖口、搭配白色内搭和高腰裤。直播界面下方弹出弹幕评论、商品卡片、尺码建议和库存提醒。

结尾回到主播，主播指向右下角“点击下单”按钮，画面出现“直播间爆款推荐”“89.9 元”“第二件半价”“仅剩 236 件”。整体风格年轻、甜美、真实直播购物截图感，运镜轻快，颜色明亮。

首先视频的配音是意外之喜，原本以为会和其他视频一样，用一些音效或者轻音乐，但这次任务重，HappyHorse 直接给人物进行配音了，而且内容很符合直播带货的场景。此外，一些视频特效，比如点击下单、仅剩 xx 件衣服、弹出的 banner 等，都贴近内容。

但同样，视频中的文字会出现乱码，这时候需要多抽卡来解决。

接下来，我们截取了一段 FPS 游戏画面，用 HappyHorse 生成接下来的内容。

prompts:

镜头从玩家持枪视角缓慢向前推进，枪口轻微晃动，脚步踩过碎石和龟裂的柏油路。道路两侧堆满烧毁的汽车、废弃公交车和被藤蔓覆盖的建筑，阳光穿过尘埃和薄雾，空气中有漂浮的灰尘。画面前方的废车堆突然传来金属摩擦声，一辆残破汽车的车门轻轻晃动，远处有黑影快速从车顶掠过。玩家停下脚步，抬高枪口，瞄准废车后方。几只被感染的敌人从车堆和草丛中突然冲出，动作迅猛但不要血腥表现。镜头快速后退半步，枪口开火，枪焰照亮前景，子弹击中废车和地面溅起火花与尘土。随后远处传来更大的吼声，镜头转向街道深处，露出一座被植物吞没的城市关卡入口，暗示更大的危险即将出现。整体风格为写实次世代游戏画面，末日废土氛围，电影级光影，真实武器细节，动态镜头，强烈临场感，16:9，4K，24fps，持续 8-10 秒。不要卡通风，不要夸张特效，不要血腥，不要出现现代城市人群。

结合此前阿里发布的 HappyOyster 世界模型，感觉两者技术有共同之处，可以看到视频在 15 秒时间内，还原了游戏世界。

测试 3：编辑视频

原始视频是一段足球内容，我们尝试编辑小细节的内容，以及大范围的风格修改。

prompts:

给足球加上火焰特效

足球的确有火，但问题也很明显，模型追踪 8 号队员，把他的庆祝跑位当作抢球跑位了，所以球分成了两个。能看出来 HappyHorse 在理解，但没理解明白。

prompts:

视频改成动漫风格

emm，整体风格修改看起来不是 HappyHorse 的强项，看细节，比如人脸，可以看出来风格转换了，变成平面的二次元的。但除此之外，变化不大，特别是观众席上观众的脸，像被迫高清化了。

HappyHorse 的价格也很 Happy

HappyHorse的价格分三档。

免费版为 0 元，支持每日登录领取免费积分，最多 2 个并发任务。不支持批量生成视频、优先生成队列、去除品牌水印和 1080P 视频生成。

标准会员为 70 元/月，原价 87.50 元，目前为 8 折。每月包含 875 积分，折算为每 100 积分 8 元。功能包括每日登录免费积分、最多 10 个并发任务、批量生成视频、优先生成队列、去除品牌水印和 1080P 视频生成。

专业会员为 245 元/月，原价 350 元，目前为 7 折，并标注“最划算”。每月包含 3500 积分，折算为每 100 积分 7 元。功能包括每日登录免费积分、无限并发任务、批量生成视频、最快优先生成队列、去除品牌水印和 1080P 视频生成。

截取了几个比较常用的参数配置所消耗的点数，720P、5S的一个视频优惠价格32分，按标准会员来算2.56元一个。720P、15S的视频则是7.6一个。

进入第一梯队，接下来挑战在进入真实业务

过去两年，AI 视频基本是在比谁更震撼。可灵、Seedance、海螺、Vidu 把中国厂商推到了第一梯队。这个赛道已经不缺“会生成视频”的模型，缺的是谁能把视频生成变成稳定、便宜、可复用的生产工具。

HappyHorse 的意义，不只是阿里又做了一个视频模型。它更像是阿里正式下场补齐 AI 视频这一块拼图。

从实测看，HappyHorse 的文生视频和图生视频已经有明显可用性。空战、功夫做菜短视频、长城纸雕地图、直播带货、FPS 游戏场景，它都能理解画面关系、动作节奏和镜头推进。尤其是首帧图生视频，能在不严重破坏原图的情况下继续展开，这点对短视频、广告、电商素材都很重要。

但问题也同样明显，文字仍然容易乱码，视频编辑不够稳，物体追踪会出错，风格迁移也没有想象中彻底。它可以帮创作者提高出片效率，但还不能完全替代后期、剪辑和人工筛选。

这其实也符合 AI 视频行业现在的状态。行业已经从单纯拼模型效果，转向拼商业落地。谁能降低抽卡成本，谁能稳定生成商品视频、直播素材、短剧片段、游戏宣传片，谁才更接近真正的生产力工具。AI 视频正从技术突破走向商业验证，短视频、直播、电商和企业内容生产会成为关键场景。

放在这个背景下，HappyHorse 最大的想象力不在榜单第一，而在阿里的生态里。阿里有电商，有广告，有云，有商家服务，也有大量需要低成本制作视频素材的真实用户。别的模型可能更像创作者工具，HappyHorse 如果接入淘宝、天猫、阿里妈妈、钉钉和阿里云，它就不只是一个视频生成入口，而可能变成商家每天用来做商品展示、直播预热视频、广告素材和品牌内容的基础工具。

也许下半年再回头看，HappyHorse 更像是 AI 视频行业进入下半场后的一个信号：模型效果已经卷到足够高，接下来真正重要的，是谁能把视频生成接进真实业务里。

作者：硅星人

来源：硅星人Pro