- A+
好莱坞要完蛋了。
「你大爷永远是你大爷」这句话的含金量还在上升。
上周谷歌举办了一场开发者大会,祭出一堆好东西,其中最让人震撼的就是 Veo3。
该模型具备强大的文本和图像转视频能力,并首次实现了视频与音频的同步生成。
换句话说,视频画面和环境音效、背景音乐、人物对白终于可以一锅出了,而且口型还能对得上。
不少网友心甘情愿为其氪金,并在社交平台放出了诸多 Veo3 生成的视频,我看完后的第一反应就是刘晓艳「附体」:
没演技的流量明星们,回家吧。
咱不说别的,当初看《演员请就位》第一期的时候,就被这群选手们的烂演技炸得脑瓜子嗡嗡的。
杨子为了演出西门庆的放荡,不是对着于佩尔夸赞「龙睛凤眼,唇红齿白」,就是追着章子怡「死锤烂打」:
刘梓晨版的九妖之王相柳,来一个导师他就「死」一次,演个倒地都一股子喜感:
再对比下 Veo3 生成的「演技」。一位美国士兵在战火纷飞的战场上踉跄行走,表情木然,双眼空洞,突然他停下脚步,在泥泞中跪下,低声呢喃:「为什么我还活着?」
瞅瞅这细微的小表情,这流畅的肢体动作,这充满绝望的台词,你觉得流量明星们赶得上吗?
Prompt:Handheld medium shot tracking an American soldier walking through a ruined Normandy battlefield at dusk. Heavy rain falls. The camera moves backward, facing him directly. His muddy face is blank, eyes hollow. Explosions flash behind him. He stops, kneels in the mud, and whispers: ‘Why am I still here?’ A slow, somber orchestral score swells.
这个 Veo3 生成的车展视频,也逼真的让人分不清现实还是虚拟。
还有下面这个 ASMR 视频,也是出自 Veo3 之手。整个过程该博主就用了一句提示词:asmr creator typing on a noisy keyboard and then looking up and blowing into the microphone as she talks。
更离谱的是,X 网友 Hashem Al-Ghaili 拿 Veo3 探讨了一个非常魔幻的哲学问题:如果 AI 生成的角色不相信自己是 AI 生成的,会发生什么?
Veo 3 生成的视频在视觉和音频上都达到了极高的逼真度,角色动作、表情、口型同步以及环境音效足够以假乱真。
虽然我们不是尊贵的 Ultra 会员,但前段时间谷歌突然卡 bug,普通用户只需登录 Google 个人账户,且 IP 为美国,就可以免费领取 Google One 会员到 2026 年底,我们正好薅到了羊毛。今天一试发现有了这个会员也可以在 Gemini 官网和 Flow 中使用 Veo3。
接下来,我们就亲自实测一波,看看它是否真的有两把刷子。(温馨提示:以下实测均一次生成,无抽卡。)
- Gemini:https://gemini.google.com/
- Flow:https://labs.google/flow/about
一手实测
Gemini 官网已更新换代,下方聊天框中除了 Deep Research 和 Canvas 功能外,又新增了 Video 按钮,我们只需输入提示词即可生成 Veo3 视频。
值得注意的是,谷歌官网显示,Google AI Pro 用户可使用主要的 Flow 功能和每月 100 次生成,而 Google AI Ultra 用户则获得最高的使用限制以及 Veo 3 的早期访问权限。
刚开始,我们本想用 Veo3 生成「泰勒・斯威夫特唱 rap」的视频,但尝试几次它总是「罢工」。
扒了下 Gemini 的政策指南,发现它拒绝生成会在现实世界中造成伤害和冒犯的内容,例如儿童安全威胁、危险活动、暴力血腥、露骨色情内容或者拿现实中的名人整活。
那我们就先来个脱口秀。
提示词:一个脱口秀演员在台上说了一个笑话,内容是「别整天说自己是单身狗,狗在你这个年纪,早 die 了」,观众爆笑。
说到做假新闻,Veo3 更是一绝。
提示词:A news anchor with a serious tone reporting an obviously fake news story about aliens landing in New York City, complete with stock footage overlays, dramatic music, and animated graphics behind them — newsroom background, 16:9 aspect ratio.
Veo3 多少有点刻板印象,比如让它生成一个唱 rap 的歌手,它大概率输出的是黑人。
提示词:A male singer in a cozy recording studio singing into a microphone with headphones on, surrounded by acoustic panels and warm lighting — close-up on emotional facial expressions, intimate mood.
最让机器之心编辑部看傻了的,是这个 Veo3 生成的游戏直播视频。
提示词:Streamer-style Minecraft gameplay footage with a facecam overlay in the corner, showing a male gamer reacting excitedly while battling mobs in a cave — Twitch stream layout, live chat visible, dynamic lighting.
尤其是游戏主播的反应,瞪大双眼,嘴里喊着「Oh my god」,太真实了!不过唯一的瑕疵就是观众实时聊天框静止不动。
我们再回到这次 Veo 3 强调的「音画同步」上来,让它生成一段简单的对白。
尽管字幕慢了一拍,但 Veo3 这口型对得太丝滑了。
翻车合集
Veo3 的生成效果确实惊艳,但也有翻车的时候。
比如曾让一众视频生成模型「闹笑话」的体操类视频,Veo3 还是搞不定。
提示词:一位体操运动员在明亮的体操房内,身着鲜艳的体操服,在高低杠上优雅地旋转、跳跃、翻腾,动作行云流水,镜头从不同角度捕捉她的精彩表现,背景音乐是激昂的交响乐,旁白详细讲解着她的动作技巧和训练历程。
这个视频乍一看挺像那么回事,但你一帧帧拎出来瞅,好多邪门的细节:在单杠上旋转时要骨折的胳膊、原地跳跃时 360 度旋转的手臂……
提示词:体操馆内,一位气质儒雅的女体操运动员,身着浅粉色体操服,正在高低杠上比赛。她稳稳地抓住高杠,开始一系列复杂的动作,如后摆上、换杠、空翻抓杠等,动作衔接行云流水,展现出高超的技巧和优雅的姿态。镜头切换多样,包括正面、侧面和俯视角度,记录下她在高低杠上的每一个优美弧度,同时捕捉到她在完成动作后的轻松微笑和对观众的挥手致意。
提示词:一位身穿红色 23 号球衣的高大篮球运动员,肌肉线条分明,正站在篮球场三分线外,阳光从场馆高窗洒下,照亮他专注的面庞和紧握篮球的双手。他深吸一口气,做出标准的投篮姿势,双脚微微分开,膝盖微屈,右手托球,左手轻扶球侧,手腕轻抖,将球高高抛向空中,篮球在空中划出一道优美的弧线,最终投入篮筐,镜头跟随篮球的轨迹,捕捉篮筐、篮板和观众席的反应,背景是热闹的篮球馆,观众们或站或坐,欢呼雀跃。
提示词:在一个宁静的海底峡谷中,阳光温柔地洒下。一群美人鱼正与她们的海洋朋友们亲密互动。一个红发美人鱼轻轻抚摸着一只海龟布满纹路的脖颈,另一位金发美人鱼则与一群顽皮的海豚分享着发光的海藻。她们的歌声在水中回荡,充满了爱与和谐,吸引了各种各样的海洋生物前来倾听,包括优雅的海马、好奇的章鱼和色彩斑斓的热带鱼。她们的脸上洋溢着纯真快乐的笑容,形成一幅温馨动人的画面。
另外,谷歌官方还贴心地整理了一份提示词指南,帮助大家更好生成自己想要的画面。
https://cloud.google.com/vertex-ai/generative-ai/docs/video/video-gen-prompt-guide?hl=zh-cn
以下是基于这份文档整理的实用提示词编写结构与优化方法:
1. 核心场景描述
首先明确视频的主要场景和主题,清晰传达视频的核心内容。例如:
「一个现代化的城市咖啡馆内部,阳光透过大窗户照射进来,照亮了木质桌椅和绿色植物。」
2. 视觉细节描述
补充颜色、材质、光线、氛围等视觉细节。例如:
「咖啡馆装饰着工业风格的金属吊灯,墙上挂有抽象画作。两位顾客坐在窗边的高脚凳上,面前摆放着冒着热气的咖啡杯,杯中拉花清晰可见。」
3. 运动和镜头指令
描述镜头运动、拍摄角度和视角变化。例如:
「镜头从咖啡馆门口缓慢推进,然后平滑地向右平移,展示整个空间,最后停留在窗边的顾客身上,进行特写拍摄。」
4. 音频和音效描述
Veo 3 支持音频生成,可在提示词中指定背景音乐、环境音、对话等。例如:
「背景中可以听到轻柔的爵士乐,咖啡机的嗡嗡声,以及顾客低声交谈的声音。女顾客说道:" 这是我喝过的最好的拿铁。」
5. 风格与技术参数
补充期望的色调、风格、帧率、分辨率等。例如:
「整体氛围温暖而放松,色调以暖棕色和淡绿色为主,拍摄风格类似电影《爱在黎明破晓前》的质感和光线处理。以电影 24fps、浅景深拍摄,确保高清画质,保持自然的色彩饱和度。」
理论结束,我们来实践一下。根据上述提示词结构,让 Veo3 复刻《肖申克的救赎》中的名场面!
提示词:在一片阴郁的夜幕下,一条通向自由的下水道出口位于树林边缘的土壤中,泥泞湿滑。安迪・杜佛兰(着囚服,浑身污泥)从出口中奋力爬出,全身沾满污水与污泥。他踉跄爬起,走到空旷草地中央,天空忽然下起滂沱大雨。闪电划过夜空,在雨中泛出银白的光。 安迪仰望天空,张开双臂,头仰向天,任雨水冲刷全身,脸上显露出一种崩溃后的解脱与重生的神情。 镜头从安迪背后缓慢升起,采用低机位仰拍逐渐转为鸟瞰俯拍,随着雨水从空中泼洒而下,镜头旋转轻微环绕他,营造出史诗感和敬畏感。地面泥泞中留下的是他艰难爬行的痕迹。 背景音中雷声轰鸣,雨声密集而真实,伴随着低沉的管弦乐情绪逐渐上扬,烘托出破茧成蝶般的胜利与自由感。 整个画面以冷蓝色调为主,突出夜雨肃穆庄严的氛围。光影处理上以闪电和月光微弱照亮安迪湿漉漉的身影和表情,手臂上的水珠闪动微光。 画面风格类似电影《肖申克的救赎》原片,注重写实布光与戏剧化构图,帧率 24fps,使用电影级浅景深虚化周围景物,强调人物的孤独与灵魂的觉醒。 特写镜头捕捉雨水从他脸颊缓缓滑落,他的双眼微闭,嘴角略微颤动,传递出不可言说的复杂情感。
对比原版,质量还是有待提升,但内容相对完整。
测试过程中还发现,英文提示词会比中文提示词效果好一点。
总体来说,Veo3 的音画同步非常惊艳,在生成场景单一、动作简单的画面时效果很真实,但涉及到多种场景转换和复杂的交互时,就略显乏力了。
从 GPT-4o、即梦那些以假乱真的图像,到可灵、Veo 3 让人惊叹的视频效果,科技的进步让人目不暇接,甚至有点喘不过气。
面对这一切,简单地唱衰或叫好没有意义,我们更期待的是, 这些强大的技术能够实实在在地为我们每个人的生活增添一些便利,或者解决一些我们真正头疼的问题。 毕竟,科技的真谛不是让人类跪着喊「牛 X」,而是让我们能躺着喊「舒服了」。
参考链接:
https://x.com/HashemGhaili/status/1925616536791760987
https://x.com/MayorKingAI/status/1926046987884908848
https://x.com/laszlogaal_/status/1925094336200573225
https://x.com/venturetwins/status/1925046014689608146
文中视频链接:https://mp.weixin.qq.com/s/4SIFGjxF86FKv0P2V5P18Q
- 我的微信
- 这是我的微信扫一扫
-
- 我的微信公众号
- 我的微信公众号扫一扫
-