女王调教 AI 视频的国产之光，这个新功能绝对解放抽卡的双手

发布日期：2025-01-13 02:48 点击次数：90

看完《鱿鱼游戏》不外瘾？干脆我方作念个结局女王调教。

不想等《沙丘》第三部了？我方上手作念一个。

放在以前，光是要让这些演员不走形、不崩坏，皆要费半天劲。当今只需要丢一张截图给 AI，就不错运行作念电影了。

这是海螺 AI 上线的「主体参考」功能，由全新的 S2V-01 模子提供底层技艺救济，不错精确识别所上传图片中的主体，并设定为所生成视频的变装。剩下的，只需要浅薄的 prompt 提醒，就不错镇静进展。

▲来自 X 用户@KarolineGeorges 的创作，面部信息精确保留

▲来自 X 用户@Apple_Dog_Sol 的创作，呈现多元主体

「主体参考」如何就这样牛了

有一说一，「主体参考」的功能好多厂商皆在作念。但并非每一家皆能攻破这项功能所波及的难点：相识、连贯，畅通起来依然一致。

别东说念主可能不可，但海螺 AI 不错。只需要一张图片，就能准确清醒东说念主物特征，识别为主体，随后让东说念主物出当今多样场景和环境里。

上一秒还在挽救寰球的蜘蛛侠，下一秒就骑上机车了。

本来应该在权游里训龙的龙妈，一瞥眼在逗小狼。

女王调教

「主体参考」的冲突性进展在于达成了创作目田度和复原度的无缺均衡。这就像是给了创作家一个「全能演员」，这位演员的外形不会崩坏，而是能跟着动作、姿态当然地变化，还能把柄导演的条件，在职何场景中饰演任何动作。

不仅是新功能，更是私有的技艺决策

探花极品

实测下来的感受是：主体参考是一个截然有异的功能，跟文生、图生所达成的后果并不同样，背后所波及的技艺难点不同，对技艺念念路的条件也不同。

传统的图生视频，仅仅让静态的图片动起来，何况主如若局部的改变。以这张宋慧乔的剧照为例，图生仅仅把底本静态的图片变成了动态，何况范围有限，不会有很大的动作。

▲ 原始剧照

▲ 基于图生视频的成片

归拢张相片，「主体参考」却能基于 prompt 的翰墨，酿成一个完整的片断，动作目田的同期，面部特征依旧相识达成。

▲ prompt：暖调室内打光，剧院不雅众席中，主东说念主公身穿玄色西装，坐在中排靠左的位置。她的样子充满专注，时而表露收缩的浅笑，双手饱读掌，动作当然且富足节拍感。镜头从主东说念主公侧面运行，捕捉她身边其他不雅众的剪影和暗淡的座椅纹理，强调环境的眉目感。跟着镜头鼓舞，主东说念主公站起来。

以东说念主物为主体生成视频，现时有两种技艺道路。一种是基于 LoRA 技艺，对预锻真金不怕火的大型生成模子，进行特定微调。LoRA 在生成新视频时，需要多半瞎想。这就导致用户必须上传归拢主体、不同角度的素材，致使精确到单个片断需要具备哪些不同的元素，才能保证生成质地。同期还需要蹧跶多半的 token，以及漫长的恭候时刻。

基于多半的技艺探索，MiniMax 遴荐了基于图片参考的技艺道路：图片包含的视觉信息最准确，从图片开赴，合乎物理拍摄的创作逻辑。在这个技艺道路中，画面的主东说念主公是通盘视觉信息中，模子最优先识别的——不管接下来出现什么画面、不管什么情节，主体皆需要保执一致。

而其它的视觉信息则愈加绽开，由翰墨 prompt 进行限制。这样一来，就能达成「精确复原+高目田度」的生成想法。

▲山谷的旷地中，主东说念主公站在巨龙前，长发随风飘零。镜头缓缓拉升，捕捉主东说念主公回身看向远处的动作，巨龙的翅膀伸开，吹动主东说念主公的头发和她的裙摆，画面最终以俯拍终局

这段视频里，只传给了模子一张龙妈的图片。最终呈现出来的视频中，模子准确呈现了 prompt 中波及的镜头谈话、画面元素，体现出极强的清醒才气。

图片参考的技艺道路，比较于 LoRA 决策，肉眼可见的减少了用户上传的素材，数十段视频化为一张图片。同期恭候时刻以秒瞎想，体感上和翰墨生成、图片生成所花的时刻差不了多远——既有图生视频的准确，又有文生视频的目田。

国产之光，满足你的「既要又要」

「既要又要」并不是过分的条件。只好同期达成东说念主物形象的准确一致和目田行为，才能让模子走出整活、作念梗图的规模，在行业哄骗场景中，具有更平日的使用价值。

比如在产物告白中，一张模特图，径直针对多种产物生成视频，只需要改变 prompt 就能达成。

如果用图生视频的方式来达成，现时的主流决策是诞生首尾帧，不错达成的后果也被已有图片截至住了。同期还得要反复抽卡，网罗不同的角度，终末再把素材拼接在全部，才能完成一组有长度的镜头。

聚会不同技艺的特色，愈加合乎视频创作的责任过程，恰是「主体参考」的上风。改日，逾越 80% 的营销从业者会在不同的步调用到生成式器具，他们只需要专注在故事和情节构念念上，解放抽卡的双手。

Statista 的统计骄傲，2021 年时告白营销的生成式 AI 产物阛阓规模照旧逾越 150 亿好意思元。到 2028 年时这个数字将达到 1075 亿好意思元。以往的责任流里，隧说念的文生视频有太多不可控，适应用在创作初期。泰西的告白营销行业里生成式 AI 照旧颠倒辽远，其中 52% 的用例是在初稿、谋划，48% 用于头脑风暴。

现时，海螺 AI 先绽开的是对单个东说念主物的参考才气，改日，将会拓展到多东说念主、物体、场景等愈加丰富的参考才气，进一步解放创造力，正如海螺的 slogan 所提议的，「每个想法皆是一部大片」。

自从前年 8 月，MiniMax 发布视频模子以来，从生成画面品性、畅通度，到一致性和相识性等方面，在外洋执续勾引着多半用户的贵重和体验，其中不乏有影像创作证实的从业者，收成了多半正面响应和专科认同。

在昔日一年多的技艺竞争中，AI 视频生成领域的竞争模式初步展现。Sora 的达成后果使东说念主们看到视频生成这一领域的后劲，随后各大科技公司，在这一领域纷繁插足资源，重金研发。

跟着年底 Sora 产物推出延伸、以及用户试用的口碑平平，未能满足阛阓期待。这也给了其它玩家霸占阛阓的契机。

如今，在生成式视频行将走入下半场之时，如今简直展现出技艺实力和发展后劲的只好三家：MiniMax 的海螺 AI、快手的可灵 AI、以及字节的即梦 AI 。

动作一家培植刚刚 3 年的初创公司，MiniMax 以精悍干练的初创公司体量，带来足以置身 T0 水准的产物和技艺。从前年 12 月的图生视频模子 I2V-01-Live，到当今的 S2V-01 新模子，皆在处理以往视频生成中的难办周折。

跟着技艺的束缚郑重和哄骗场景的缓缓扩大，视频生成 AI 会在履行创作、影视制作、营销传播等领域掀翻新一轮转变。这几家代表着中国视频生成 AI 领域最高水平的厂商，除了不绝领衔国内阛阓，更有望在公共范围内与国际巨头伸开竞争。与此同期，如安在保执技艺创新的同期，确保产物的相识性和可控性，将是这些企业濒临的执续挑战。

女王 调教 AI 视频的国产之光，这个新功能绝对解放抽卡的双手

女王调教 AI 视频的国产之光，这个新功能绝对解放抽卡的双手