你的位置:AG真人在哪玩 > 新闻动态 >

一人剧组不是梦, 商汤 Seko 2.0 把拍剧流程做成了按钮

发布日期:2025-12-30 05:03    点击次数:163

2025年,对于AI视频生成领域来说,是一个祛魅的年份。

如果说过去很长一段时间,行业还沉浸在OpenAISora这样的模型带来的"现实扭曲力场"中,惊叹于光影的逼真和物理规律的模拟,那么到了今年下半年,从硅谷到中关村,所有的从业者都撞上了一堵冰冷的墙,模型很强,但怎么变成产品?

我们见过了太多惊艳的5秒钟镜头,燃烧的宇航员、赛博朋克的街道。但当创作者试图用它们拼凑出一部哪怕只有3分钟的连贯短剧时,灾难发生了,主角在第一个镜头是瓜子脸,切个近景就变成了方脸;上一秒还穿着冲锋衣,下一秒衣服上的Logo就换了位置。

生成无数个漂亮的碎片,但我很难造出一座完整的"房子"。这是当下AI创作者最真实的挫败感。

与此同时,行业的"内卷"速度远超预期。根据多方行业调研数据显示,AI漫剧的单分钟制作成本,已经从年初的高位下降。这不是价格战,而是一场生存战。

平台的红利也在消退。主流短视频平台已开始收紧审核标准,那些靠模型"一键生成"、人物忽大忽小、衣服颜色反复横跳的低质量内容,正面临被限流甚至打回的风险。留给野蛮生长的时间不多了。

在这个背景下,商汤刚刚发布的Seko2.0显得有些"反常识"。

在大多数模型还在卷谁生成的浪花更符合流体力学时,Seko2.0把重点方在了一个听起来枯燥、甚至有点像项目管理软件的词上:多剧集管理。

也就是说,Seko认为AI视频的下半场,拼的不只是生成像素的能力,而是管理像素的逻辑。

它到底做的怎么样,我们先来看一段由平台创作者生成的作品集锦:

解剖“一人剧组”,从文本到成片的工业化链路

Seko2.0到底怎么用?简单来说,它把复杂的影视工业流程压缩成了三步走的"傻瓜式"操作:

1、丢剧本:把小说或创意文案直接扔进对话框;

2、AI拆解:系统自动把剧本拆解成角色、场景、道具,并生成分镜图;

3、交互成片:用户确认分镜无误后,一键生成连贯视频,并支持对画面进行"P图式"修改。

比如在Seko2.0产品发布中的《李白诗仙传》演示,我们看到了这套逻辑的实际效果。

打开Seko2.0的新界面,你会发现它越来越不像一个简单的聊天框,而更像是一个轻量级的非线性编辑软件。用户把一段关于李白的剧情文本扔进去,系统背后的Agent(并没有急着生成视频,而是像一个成熟的副导演一样,先做了一件事:拆解。

它自动分析文本,提取出角色(李白)、场景(宫廷/山水)、道具(酒壶),并生成了一份包含了三集内容的结构化大纲。不只是文本的梳理,更是资产的建立。

对于短剧创作者来说,最大的痛点莫过于"角色一致性"。以往,为了让角色在两张图里长得一样,用户可能需要填写复杂的Prompt甚至训练LoRA。

而在Seko2.0中,这套逻辑被Agent接管了。

这意味着,AI也有了"记忆"。系统把角色的视觉特征提取出来,存入资产库,然后在每一次生成新分镜时,通过Agent强制注入这些特征。对于想要日更的短剧团队来说,他们终于不需要用庞杂的Excel表格来人工记录每个角色的Prompt参数了。

除了宏观的一致性,Seko2.0在微观层面的可控性上也做出了进化。

大部分的AI视频工具是生成器的逻辑,如果不满意,你大概率只能重新生成。Seko2.0则引入了"画布编辑"功能。如果对分镜中李白的动作不满意,用户可以直接在画布上进行局部重绘、消除甚至添加元素。

另外值得一提的是集成在Seko2.0产品中的,实时语音驱动数字人技术----SekoTalk功能,不但能精准实现多人、多语言对口型,保证超长时稳定生成同时,还极大提升了数字人生成效率,做到了真正的实时生成。

这些不是简单的加分项,而是能不能进入实际生产场景的门槛,它让AI视频真的可用、好用了。以下是Seko平台创作者利用SekoTalk生成的作品:

算力经济学

如果说“一致性”决定了AI短剧能不能看,那么“算力成本”则决定了AI短剧能不能赚。

这样解释了为什么商汤要死磕国产算力。

面对越来越卷的AI短剧、漫剧的市场,如果创作者还在使用昂贵且稀缺的英伟达高端显卡进行渲染,那么算力成本将吞噬掉仅有的利润。这也解释了为什么目前市面上充斥着IAA(广告变现)模式的免费剧,因为用户付费意愿低,制作方只能靠极致的压缩成本来博取流量收益。

商汤显然算过这笔账。商汤科技Seko产品负责人王子彬在采访中透露了一个关键数据,相比半年前,Seko单次推理的成本已经下降了50%左右。

这背后离不开商汤日日新大模型的底层创新和协同优化。比如,商汤开源的行业首个视频生成推理框架LightX2V,在ComfyUI社区下载量已超过350万次。它解决了制约AI视频落地最关键的,高质量视频生成与昂贵算力的矛盾。

LightX2V的多项核心技术包括:

PhasedDMD(步数蒸馏):简单来说,就是让AI“少走弯路”。通过原创的蒸馏算法,在极少的步数下(如4步)就能生成高质量视频,大幅缩短了推理时间。

LightVAE(轻量级VAE):这项技术将视频编解码的性能提升了10倍以上,同时保持了高清画质。

带来的直接结果是,在消费级显卡(如5090)上,生成5秒的视频所需时间小于5秒,实现了“1:1实时生成”。

更具战略意义的是,LightX2V并不仅仅服务于英伟达生态,它还打通了国产芯片。目前,Seko2.0已经实现了对国产AI芯片的深度适配。

这是一个实打实的商业策略。对于那些对价格极其敏感的小型工作室来说,如果国产算力能提供价格优势,这就是无法拒绝的吸引力。

“从用户侧来看,其实基本是无感的。”王子彬非常自信地表示。虽然在研发端经历了巨大的适配挑战,但最终呈现的结果是,国产芯片在生成质量上与英伟达方案基本一致。

把想象力还给普通人

在发布会上,商汤科技董事长兼CEO徐立引用了克莱顿·克里斯坦森的经典理论《创新者的窘境》:很多颠覆性的创新,最初都是从“低毛利、边缘化”的市场切入的。

这解释了Seko2.0为什么要死磕“短剧”和“漫剧”。

相比于对光影、纹理要求苛刻的院线电影,短剧和漫剧对画质有着天然的宽容度。这里的观众更在意剧情的爽点和更新的速度。这正是AI目前最好的练兵场。

事实也证明,这条路走通了。Seko孵化的真人短剧《婉心计》拿到了抖音AI短剧榜的第一名。并且Seko已经宣布与长江电影集团签约,计划孵化院线级AI电影。

从几分钟的竖屏短剧,到120分钟的大银幕,中间的鸿沟依然巨大,但Seko似乎想通过“农村包围城市”的策略,一步步填平它。

王子彬在与媒体沟通中也提到,Seko的用户里,其实只有10%-20%是专业的短剧工作室,但他们贡献了最高频的使用量;而剩下的大量用户,是MCN机构、自媒体人,甚至是教育工作者。

在技术和商业的宏大叙事之外,发布会的尾声,徐立分享的一个小故事或许最能代表这款产品的初衷。

一位普通的语文老师,利用Seko把学生的优秀作文变成了动画视频,在课堂上播放,点燃了孩子们巨大的创作热情。

AI视频工具的终极意义,或许并不是为了让好莱坞导演失业,也不是为了制造更多的电子垃圾,而是为了让一个不懂画画的程序员、一个没有摄像机的公务员、或者一个充满幻想的小学生,都能拥有把想象力变成现实的权利。

只有工具不再昂贵,技术不再高冷,AI视频的“工业革命”,才可能发生。