故事选题AI 视频提示词 · 12 个配方

2026 年 12 个可直接复制粘贴的 AI 视频提示词

别再盯着空白的提示词框发呆。12 个 AI 视频提示词,每个都带镜头、布光、音效的逐项标注 —— 任选一个粘进编辑器,今晚就能出片。

2026-06-17 16 分钟阅读·作者 Story Into Video Editorial

AI video prompts — overhead storyboard desk flat-lay with a clapperboard, a polaroid of a neon alley, sketched scene frames, and a steaming mug under amber lamp light

网上能搜到的 AI 视频提示词,大多读起来像一本同义词词典 ——"电影感、史诗、超写实、8K、大师之作"—— 跑出来的成片,跟你过去那十七次失败的"塑料皮肤走廊"长得一模一样。问题不在你的生成器,问题在于:一段只堆形容词、不下决定的提示词,根本没给模型任何可以锁定的东西。

这篇文章反着来。12 个按场景命名的配方,每一个都是一段散文,镜头师、灯光师和音效师拿到都能直接开拍。每一个配方都按同样的五个维度拆解 —— 镜头运动、布光、镜头规格、声音设计、主体调度 —— 看懂这个框架后,你可以随便换主体而保留骨架。把它们粘进编辑器,第一次生成就能看,不用跑到第五次。

12 个场景分成三组。电影感和叙事型配方 —— 一镜到底推轨、黑色电影厨房乱炖、超写实特写、一镜变形 —— 用来在任何模型上压测连贯性、口型同步和光影。POV 和伪纪录片配方 —— 第一人称角色 vlog、伪警用执法记录仪、会说话的动物街采、把素人面孔塞进不可能的场景 —— 是 TikTok 和 Shorts 当下放大倍数最高的格式,靠结构而非视觉花活儿赢。最后是"标志性 IP / 格式劫持"配方,告诉你笑点藏在"一眼能认出的腔调"和"一件平庸到爆的小事"之间的反差里。

每一条都配:可直接复制的提示词块、一段"为什么有效"的拆解,以及一个一键加载到编辑器的按钮。不点名模型,不卡付费墙,不需要任何配置。

5 维提示词配方

下面每一条都按同一套五维配方来写 —— 镜头运动、布光、镜头规格、声音设计、主体调度 —— 原因很简单。当你只丢给生成器一堆形容词("电影感""氛围感""惊艳"),它会在数百万训练帧里求平均,把那个均值还给你。当你丢给它五个具体的决定,模型有东西可以咬住,产出就不再是泛泛而谈。这一节看一遍,后面每个配方都会复现。

镜头运动放在第一,因为它决定了整个镜头的语法。推轨告诉模型"世界正在被进入";航拍揭示告诉它"世界正在被巡视";锁机位静态告诉它"世界正在被观察";手持告诉它"世界正在被追赶"。一段提示词里混进两种 ——"一边推一边变焦"—— 几乎一定把渲染器搞晕,出来就是抖。挑一种运动,把它的弧线长度坚持到底。

布光是大多数提示词翻车的地方,因为写的人伸手去抓氛围词,而不是物理量。说清楚方向(主光来自镜头左侧、轮廓光来自背后)、色温(3200K 钨丝灯、5600K 日光、钠灯+霓虹混色)和质感(正午硬阳 vs. 阴天柔光反射)。"氛围光"什么也没给模型;"低角度主光、暖钨丝、后墙硬阴影"给了它三条它真能渲染出来的约束。

镜头规格控制画框能装多少世界,以及世界看上去有多扭曲。24mm 广角把观众塞进房间里、放大冲着镜头来的运动;50mm 的视角接近肉眼、自身隐形;100mm 微距压缩空间、放大质感;变形宽银幕直接给你那一道横向耀斑,瞬间读作"电影"。把焦段写明,模型就不用猜。

声音设计这一维,决定了出来的是截图还是视频。这篇里每一个配方都标注了观众听见什么 —— 带腔调的对白("耳语,带半笑")、环境音质感("雨砸在金属雨棚上、远处警笛")、用沉默替代配乐、或一段单一的音乐动机。不给音频决定,渲染器要么塞罐头库存,要么 —— 更糟 —— 把成片留成一段静音 GIF。

主体调度把另外四维串起来:谁在画框里、被放在哪个位置、手和眼睛在做什么。"一个人在走路"是没下决定;"一个外卖小哥骑摩托从画面左侧以 1.25 倍步行速度经过画面右侧,头盔面罩翘起一条缝"才是一个镜头。

把顺序记下来 —— 镜头、光、镜头规格、声音、调度 —— 你不用看模板就能写一段提示词。或者在编辑器里直接打开预载的配方,把我们的某一个改写成你自己的主体。

电影感和叙事型提示词

接下来的四个 AI 视频提示词共享一个野心:它们想让画面足够稳,能放在四十寸屏幕上跑完整段,而不是在 feed 里被划走。每一个都靠一种成熟电影语法撑起来 —— 一段没断的长推、一道明暗对比的审讯光、一段安静的对白特写、一镜变形 —— 并把这个语法当作整段提示词挂在上头的承重墙。没有跳切、没有剪辑蒙太奇、没有屏上字幕替你抒情。画面必须自己扛。

四条之间的 DNA 一样。视觉上,每一条都锁死一种镜头语法:推轨、百叶窗光斑、50mm 人像、或锁机位广角。听觉上,没有一条靠音乐床:环境室音、雨声、滴答、呼吸做苦力,逼模型渲真实的同期声而不是躲在音乐后面。结构上,每条提示词都按主体—动作—镜头规格—布光—声音—收尾的顺序排出 —— 也就是我们后面拆的五维配方。这就是为什么"电影感"提示词不会塌成一锅氛围词糊。

1 — 雨夜东京霓虹巷一镜推轨

一段雨后东京霓虹小巷的缓慢推轨镜头,作为 AI 视频提示词的基准测试场景

这是一镜到底的炫技 —— 当你想知道默认模型能不能把一个画面稳定撑住超过 3 秒,就跑这一条。镜头只做一件事:在凌晨两点的东京后巷里慢慢往前飘,周围的城市自顾自地运行。左边一家拉面摊冒蒸汽。右边一个外卖骑手骑摩托擦肩而过。地面积水反射着头顶霓虹招牌的粉与青。没有剪切、没有切镜、没有变焦 —— 整个镜头就是一段两百英尺的安静推进,考的是视差、反射、雾气一路下来是否保持自洽。如果之后你想让同一个引擎处理一整支书籍预告片的结构性节拍,这一条就是干跑测试。

原样复制粘贴:

A continuous unbroken dolly shot moving forward at 1.2x walking pace down a narrow Tokyo back alley at 2 a.m., shot anamorphic 2.39:1 on a wide cinema lens, slight ground-level perspective. The alley is wet from recent rain, puddles holding pink and cyan reflections of overhead neon kanji signage, atmospheric haze in the deep background, steam rising from a noodle stall vent on the left, a lone courier on a moped easing past on the right, no other foot traffic. Horizontal anamorphic lens flares streak off the neon signs as the camera passes. Lighting is mixed neon practicals only, no key light, deep shadows in doorways. Sound: constant rain hiss on pavement, distant traffic rumble, a faint Japanese AM radio bleeding from the noodle stall, no music. The shot ends with the camera still moving forward as the alley curves out of frame.

这段提示词配得上它的播放时长,是因为每一维只做一件事,且只做一件事。镜头死磕一段连续推轨,模型就没办法靠切镜来掩盖连贯性掉链子。镜头规格选了变形宽银幕 2.39:1,锁死画幅比例,同时给引擎一张许可证去渲染那一道横向耀斑 —— 还没出主体,"这是电影"已经成立。布光被写明只用实景霓虹,这逼着招牌作为真实光源参与运算,而不是当装饰贴图。同期声床是最隐蔽的炫技:没有配乐就意味着雨声和广播必须干净渲出来。主体调度近乎做减法 —— 一辆摩托、一个摊、再没别人 —— 巷子本身成了主角。

视觉关键帧:1.2 倍步行速度的推轨,变形宽银幕 2.39:1,湿沥青上,霓虹耀斑横向甩出。 声音关键帧:雨声嘶,远处车流轰,拉面摊里渗出的微弱日语电台,无配乐。

2 — 黑白烤面包机侦探审讯三明治嫌疑人

一间黑色电影感的 1940 年代审讯室,主角是一台烤面包机侦探与一个三明治嫌犯,作为最逗趣的 AI 视频提示词之一

把一间 1940 年代审讯室扔进生成器,你得到的是漂亮。把一间 1940 年代审讯室里坐上"一台镀铬双槽烤面包机当侦探、一只火腿三明治当嫌犯",笑点能落地的唯一办法是另外四维必须一脸严肃。灯泡晃。看不见的窗外百叶窗把横向阴影条投在两张"脸"上。烟雾从三明治的生菜旁边卷上来。烤面包机的拉杆每隔几秒轻轻一响,像在呼吸。整段戏里没有一个人 —— 旁白、声音、镜头规格、布光 —— 承认其中一方是厨房小电器,而这正是它好笑的原因。同样的五维骨架也出现在我们的恐怖故事提示词配方,基于完全相同的五维,想看这套手法换成阴森口吻怎么跑,可以去对照看。

原样复制粘贴:

A 1940s film noir interrogation room, shot in black and white on 35mm with visible grain, single bare bulb swinging slowly overhead. Hard chiaroscuro lighting, venetian blinds on the unseen window throwing moving horizontal shadow bars across both faces in the frame. On one side of a battered wooden table sits a chrome two-slice toaster, lever up. Opposite it, on a small enamel plate, sits a single ham sandwich. Camera holds a medium two-shot then slowly pushes in, shallow depth of field, focus pulling between the toaster slot and the sandwich crust. Cigarette smoke curls up between them. Sound: a tinny voice-over monologue in a 1940s radio-announcer register delivering one straight noir interrogation line, distant saxophone, a ticking wall clock, the soft mechanical click of the toaster levers as breathing. No laugh track. The scene ends on the bulb still swinging.

机制在于五维的语气统一承诺。镜头走的是教科书黑色电影调度 —— 中景双人镜推进 + 焦点拉换 —— 不向荒诞抛媚眼。布光被显式写明是硬明暗对比加移动百叶阴影,这正是大多数廉价黑色电影提示词丢掉的"那个味儿"。35mm 颗粒板给了模型一层质感可以锁定,而不是吐出一张干干净净的数字平面。声音设计扛起了整个笑点:一段语气端正的 1940 年代电台播报员腔调、一段远处萨克斯、墙钟的滴答、烤面包机拉杆被改作呼吸 —— 全在做喜剧,但没人说出"好笑"两个字。主体调度只有一张桌子两个物件,引擎没有任何 cut-away 可以躲。

视觉关键帧:横向百叶阴影切过镀铬烤面包机和火腿三明治,头顶一颗灯泡还在晃。 声音关键帧:罐头味的黑色电影旁白、远处萨克斯、墙钟滴答、拉杆当呼吸。

3 — 停车场夜里一场超写实的车内坦白

一段紧凑的 50mm 特写,主角在夜里说出一句轻声的话,作为 AI 视频提示词的口型同步测试场景

这是口型同步压测。一个人,坐在夜里一辆停着的车的方向盘后,对副驾上看不见的人,只说一句话:"我应该早点回你电话。" 车不动。雨刮不开。没有第二句对白、没有音乐、没有第二个机位 —— 只有一个紧 50mm 人像 + 一个呼吸。你真正在评测的是音素和画框之间的缝隙:口型、眼神微表情、呼吸是不是长在同一个脑袋上。同样的"克制"纪律也出现在我们的睡前故事视频生成器里,那是把"让画面自己呼吸"这条规矩用在更温柔的场景上。

原样复制粘贴:

A tight 50mm portrait close-up of a single character sitting behind the wheel of a stationary car at night, parked on a quiet street. Camera is locked, framing eyes to chin, shallow depth of field with focus on the eyes. Lighting is dashboard amber backlight tracing the jawline plus one slow pass of a streetlight crossing the face from left to right, no key light. Rolling rain blur on the windshield behind. The character looks slightly off-camera toward an unseen passenger and delivers exactly one quiet line, just above a whisper, in native lip-sync audio: 'I should have called you back.' One visible breath after the line, then a small swallow, then stillness. Sound: dull patter of rain on the car roof, distant single car door slamming, ambient interior cabin tone, no music, wipers off. End on the held look.

这段提示词靠"显式标注哪些维度不做什么"赢回了它的克制。镜头是锁死的 —— 没有手持漂移、没有推、没有焦点拉换 —— 画框里唯一在动的就是脸和那一道路灯扫光。镜头规格写明 50mm 人像 + 焦点对眼,挡住了引擎默认伸手去抓的那种"更广、更平、采访味"。布光全是实景:仪表盘暖琥珀 + 一道扫过的路灯,不加补光。声音几乎是做减法 —— 雨、远处一声车门、车厢氛围 —— 让对白单独留在混音中央,口型同步无处可藏。最后,主体被调度为"说完一句,然后停下来",这正是大多数提示词忘掉的动作。

视觉关键帧:锁死的 50mm 特写,焦点在眼睛上,仪表盘暖光描出下颌线,一道路灯扫过。 声音关键帧:接近耳语的一句话、车顶上的雨、远处一声车门、车厢室音、无配乐。

4 — 车库九十秒一镜爆改家庭健身房

一段竖屏一镜变形,把凌乱车库变成整洁家庭健身房,作为 AI 视频提示词的变身模板

变身视频是 Shorts 和 Reels 上被过度复制的格式,这正是 AI 版必须用一镜来做的理由。一座郊区的两车位车库 —— 自行车斜靠、破纸箱堆叠、顶灯死了 —— 在镜头前变成一间整洁的家庭健身房,九十秒,中途不切。道具用动态模糊换出来,而不是淡入淡出。顶上的荧光灯由冷转暖,变成从开着的车库门洒进来的下午斜阳。整段戏画框里没有人,这正是它不会漂移成装修 vlog 的原因 —— 焦点始终在空间本身。

原样复制粘贴:

A vertical 9:16 single continuous shot, locked-off wide of a cluttered suburban two-car garage interior. No human characters in frame at any point. The garage begins messy: leaning bicycles, stacked broken cardboard boxes, an oil-stained concrete floor, a dead overhead fluorescent tube. Over ninety seconds the space transforms in one unbroken take: boxes fade and morph into stacked rubber gym tiles, bikes swap-morph into a rack of dumbbells, the dead bulb warms on and shifts into late-afternoon golden-hour sun spilling through the open garage door, a hanging fern fades in, framed posters resolve on the back wall. Props transition with subtle motion blur, no hard dissolves. Lighting shifts gradually from cold blue fluorescent to warm gold. Sound: a barely-conscious rising synth bed, a single dumbbell clatter as the midpoint cue, last five seconds drop to clean room tone and one breath. End on the finished gym, still locked.

这一条靠结构吃饭。镜头被锁成竖屏 9:16,引擎从头到尾不需要发明任何运动 —— 每一帧的变化都必须发生在画框内部。提示词里最关键的一句是"用动态模糊替换道具,禁止硬切" —— 它告诉模型不要做什么(那种偷懒的交叉淡入),从而强迫它进入变身行为本身。布光被写成"渐变",而不是"切换",房间感觉是在变暖,而不是在被替换。声音床几乎是刻意空场 —— 一段渐起的合成器、一声哑铃当中点提示、五秒呼吸 —— 加上"无人入镜"这一条,把焦点死死按在空间自身的变化上。

视觉关键帧:锁死的竖屏 9:16 广角,道具用动态模糊互换,光线从冷荧光暖到金色。 声音关键帧:近乎无意识的渐起合成器,中段一声哑铃落地,结尾五秒纯净室音。

POV 和伪纪录片提示词

下面这四个 AI 视频提示词共用一个把戏:摄影机假装自己有一份本职工作。一台头盔自拍杆、一台警用执法记录仪、一支街头记者的新闻摄像机、一支被塞进普通人这辈子去不到的地方的"出镜友情客串"镜头 —— 每一个都借用了一种"野外已经存在"的真实素材格式,再用那份借来的权威感卖一件本不可能发生的事。冷面是引擎。屏上没有谁眨眼。画框坚持自己是真的,笑点(或惊奇)藏在读者那一刻安静的反应里 —— 等等,这不可能。

四条之间共享的 DNA 是:手持微抖或机构鱼眼、动机性同期声而非配乐、压在耳语或闷响下的原声口型同步、明显标识设备类型的画幅比(9:16 手机、4:3 执法仪、16:9 广播),以及一个不像剧本场景那样收束的背景小细节 —— 因为真实素材本来就很少给收束。五条做到位,画面读起来就像被拍到的,而不是被设计出来的。

5 — 沙漠岗哨守卫在 cantina 卫生间里 vlog

一名沙漠哨所士兵在路边 cantina 残破瓷砖卫生间里的竖屏自拍,头顶刺眼绿色日光灯,AI 视频提示词模板

镜头是一段连续竖屏自拍,主体是一名穿盔甲、戴白头盔的远程沙漠哨所守卫,正靠在一家路边 cantina 的洗手台边,瓷砖裂着缝。他在抱怨室友把他最后一根口粮棒吃了。整张脸盖死,所以表演完全靠头盔倾斜、被闷过的语速、空着的那只手做的小幅度盔甲手势。头顶荧光把面罩刷成发酸的绿色。背后镜子里,一个穿长袍的剪影从开着的门口走过。他完全没察觉。这一帧没被注意到的背景事件,是整段戏从"装扮 cosplay"翻面成"等等,刚才发生了什么"的关键 —— 算法奖励的就是这种瞬间。

原样复制粘贴:

Vertical 9:16 handheld selfie video, point-of-view of a fully armored desert outpost guard in a white helmet and chest plate, holding his own phone-cam at arm's length in front of a dusty bathroom mirror inside a roadside cantina. He vents directly to camera about his roommate eating his rations, voice muffled from inside the helmet, head tilting in small frustrated arcs. Cracked tile walls behind him, harsh overhead green fluorescent buzzing, slight greenish cast on the visor, subtle vertical handheld wobble, occasional autofocus hunt. In the mirror reflection a robed figure walks past the open doorway behind him; he does not react. Distant cantina music thumps through the closed door, a toilet flushes off-frame, armor plates squeak against the sink edge. End on him sighing and lowering the phone.

机位选择做了绝大部分工作:手机伸出手臂,自动锁死 9:16 画幅、微抖和偶发自动对焦拉锯,这三件事在观众潜意识里写明"这是真上传,不是渲染"。把唯一光源放在头顶 + 染成荧光绿,正好涂出一台安保监控会渲出的肤色调,头盔就从"戏服"读作"工装"。把声音闷在头盔里,把音频锚定到道具的几何形状上;其他一切声音(cantina 闷响、冲水、刮擦)都被分配到同期声源,整段戏就出不了"短剧"腔。镜中那个没被注意到的剪影是停止滑动的扳机 —— 你自己往里塞一帧惊讶,这个格式就立住了。你可以把它们粘进编辑器,把守卫换成骑士、深海潜水员、防化兵,直接复用这具骨架。

视觉关键帧:头顶绿色荧光打在头盔面罩上,镜子里一个穿长袍的剪影路过,他没看见。 声音关键帧:闷在头盔里的发牢骚、远处 cantina 闷响、画框外湿漉漉的一声冲水。

6 — 大脚怪执法记录仪:一通"家暴报警"出警画面

警用执法记录仪鱼眼画面里,一只光线写实的大脚怪在郊区厨房静静洗碗,角落里时间码烧入,AI 视频提示词机构镜头模板

设定是郊区联排别墅的一通噪音投诉报警,镜头开在警员胸前的执法记录仪宽鱼眼。警员手电的光束扫过走廊,然后抬上厨房门口 —— 那里站着一只光线写实的大脚怪,正在洗碗。他回头给了一声礼貌的低吼,然后继续刷。执法记录仪从头到尾没有按摄影师的方式重新构图。时间码一直烧在角落。低分辨率传感器噪点在阴影里爬。整段戏成立与否,完全取决于摄影机相不相信自己正在做日常工作 —— 一次寻常的福利探访 —— 而不是在"展示一只 cryptid"。这是任何"机构相机遇上不可能主体"短片的模板,放在我们的同一套五维骨架的恐怖故事提示词配方旁边,语气想压暗也压得下来。

原样复制粘贴:

Police body-worn camera footage, chest height, wide-angle fisheye lens with mild rolling shutter, white time-code burn-in 02:14:33 with a battery icon in the upper right, low-resolution sensor noise in the shadows. A uniformed officer enters the front door of a suburban duplex on a noise complaint, duty-belt flashlight beam striping the hallway wall. The beam swings up to a kitchen doorway and finds a fully photoreal Bigfoot at the sink, rinsing dishes calmly under a yellow ceiling light, fur damp at the wrists. He glances over his shoulder, gives a polite low rumble, then returns to scrubbing. Crackling police radio dispatch, running sink water, soft 90s soft rock leaking from a neighbor's apartment, no scored music. End on the officer pausing in the doorway, flashlight still raised.

整套假象全靠相机物理,不是怪物造型。画框边缘的鱼眼扭曲、警员转身时轻微的卷帘快门拖影、角落的时间码、手电作为唯一附加光源 —— 这四个信号,观众潜意识里直接读作"真执法记录仪"。让腰间手电当主光,毛发会被一道有动机的硬光打成条纹,而不是一整片电影级铺光 —— 这正是"怪物片"和"被拍到的素材"之间的差别。音频堆栈 —— 电台杂音、水龙头水声、邻居放的软摇滚、cryptid 一声对话级别的低吼 —— 每一个声源都是同期的。没有配乐。没有摆拍。那一声礼貌的回头,就是包袱。

视觉关键帧:鱼眼手电光束扫过水池上湿漉漉的大脚怪毛发,角落时间码还在烧。 声音关键帧:警用电台杂音叠在水龙头水声和邻居 90 年代软摇滚下方。

7 — 鸽子街采:聊 2026 年面包屑涨价

繁忙广场上,一支泡沫覆盖的新闻话筒指向一只栏杆上的鸽子,手持街头采访画面,AI 视频提示词的"以假乱真"采访模板

画面开在一座繁忙的城市广场,午后柔和漫射光。一支街头记者的泡沫话筒从画框左缘探进来,话筒挂牌空白未署标,镜头把焦点从泡沫拉到一只站在人眼高度的铁艺栏杆上的鸽子身上。画外记者用专业的平直语气,问它怎么看 2026 年面包屑成本上涨。鸽子用一段干净的、零起伏的成年男声回答。游客在大光圈下虚化成糊状。尾巴上漏出一声画外的笑。笑点是结构性的:真实街采的格式被原封不动地搬演,只是受访对象正好是一只鸟。别把笑点写进台词,让构图替你扛。

原样复制粘贴:

Handheld 16mm-wide street interview shot in a busy European plaza, soft overcast afternoon light. A foam-covered news microphone with an unbranded blue mic flag drops into frame from the left at chest height. The camera racks focus from the mic foam onto a single pigeon perched at human eye-level on a polished iron railing, feathers in sharp detail, background tourists blurred out by a wide-open aperture. Offscreen reporter asks the pigeon, in a level professional tone, for its view on the 2026 cost-of-crumbs crisis. The pigeon turns its head once, then answers in a deadpan clear human male voice with one slow sentence. Live street ambience — footsteps, distant car horns, a tram bell — soft mic-handoff thunk, one quiet laugh from offscreen at the tail. End on the pigeon staring directly into the lens.

大光圈拉焦是整段镜头语言的灵魂。让镜头先打在话筒泡沫上,再拉到鸽子眼睛上,提示词就把生成器逼进电视记者真正在用的摄影机语法 —— 还没等谁说话,"这是真街采"已经写在镜头规格里了。话筒挂牌空白绕开了模型不愿意渲真实媒体 logo 的限制,同时保留了那个机构剪影。布光故意压在阴天 —— 晴天街采像设计过的,阴天街采像不期而遇。声音全部同期化:广场环境音、话筒入画的小一声"咚"、鸽子那段平直的回答、尾巴上画外一声笑,确认现场有人类工作人员,但没让人入镜。

视觉关键帧:焦点从话筒泡沫拉到鸽子眼睛上,远处广场游客虚化成糊。 声音关键帧:街头氛围和话筒入画的"咚"压在鸽子那句平直的台词下面。

8 — 出镜友情客串:火星表面晨练瑜伽

宽幅变形镜头里,一张可识别的素人脸在头盔玻璃后,身着宇航服在火星红色平原上做树式,远处福波斯升起,AI 视频提示词的"自我植入"模板

"友情客串"的母题,是把读者自己可识别的脸,塞进一个他这辈子站不到的地方。这里是一张黎明时分的火星平原宽幅变形镜头:一身白橙宇航服,在画框上以缓慢的树式定住,铜红色尘埃在前景以横向缓缓飘移,远处福波斯刚刚越过环形山边缘,水平方向的太阳眩光在画面顶部展开。头盔玻璃反射着青粉色的天空,以及读者自己下颌线的一抹微光。重点不是地貌的猎奇 —— 重点是"脸"在一帧帧不可能的光照下能否保持一致。把客串主体在提示词里写成一个被命名、被锁定的引用,再去描述环境、镜头规格、宇航服 —— 让生成器要解的唯一变量,只是脸周围的世界。

原样复制粘贴:

Wide cinematic anamorphic 2.39:1 shot at dawn on a red Martian plain, a single figure (cameo subject, face visible through the helmet glass) in a white-and-orange spacesuit holding a tree-pose yoga stance on a flat rocky outcrop. Copper-red dust drifts laterally across the foreground in slow ribbons, Phobos rises low over a distant crater rim, a sun flare opens horizontally across the top of frame. Helmet visor reflects a cyan-and-rose sky and a sliver of the subject's own jawline. Hold the pose for the duration of the shot, only the suit's chest plate rising and falling with breath. Soundtrack is the hush of suit-internal breath through a regulator, an impossibly thin high wind, and a single low synthesised heartbeat layered underneath. End on the sun cresting the crater rim.

脸是资产,其它都是布景。提示词顶部把客串主体写明为一个锁定引用,告诉生成器:无论怎么反射、怎么过尘流,这个身份都必须活到第 80 帧 —— 这是阻止脸漂成"路人宇航员"的关键。变形宽银幕 2.39:1 把地平线放开,把人物压到画面下三分之一,镜头不挤客串的脸。让面罩成为一面"装天空颜色"的反射面(顺便露一条主体自己的下颌),把一张库存宇航员图变成了一张人像。声音几乎全是寂静 —— 调节器呼吸、近乎不可能的薄薄高空风、一声合成心跳 —— 任何一条额外的音轨,都会跟脸抢观众的注意力。

视觉关键帧:头盔玻璃后的客串面孔,反射着青色天空,远处福波斯刚刚越过火星环形山。 声音关键帧:调节器呼吸压在薄薄高空风和一声合成心跳之下。

标志性角色与格式劫持型提示词

接下来的四个 AI 视频提示词靠同一台喜剧引擎:把一个一眼能认出的角色原型扔进不该出现的房间,或者用外科手术精度重建一种带年代感的素材格式,然后死活不向镜头眨眼。四条里没有任何一个点名版权角色或导演的名字 —— 这是有意的。读者拿到的,是"穿长袍的反派""作者腔旁白""1986 年早餐麦片广告""不可能的物理 ASMR 循环"四个结构模板,改皮换肉只要五分钟。共享规则是"语气承诺":头盔不能摘、画外音不能笑、扫描线不能有一帧消失。

下面每一条,视觉语言全套借用(机舱镜头、锁机位客厅、VHS 色偏、俯拍微距),声音语言借得更狠(机舱广播提示音、沙哑作者腔、贝斯拨弦广告 jingle、玻璃叮当),结构上的把戏始终一致:把高级的腔调,压到低级(或不可能)的任务上。每条提示词都明确写出镜头规格、布光、声音床和最后那一拍 —— 因为生成器一漂,笑点就死。

9 — 穿长袍的反派当一天廉航空姐

一名穿黑色头盔与长袍的反派,在廉航客舱走道里演示安全卡,一帧 AI 视频提示词机舱镜头

一名穿着飘逸黑长袍、戴着抛光黑头盔的高个子,站在一架短途廉航的窄走道里,黑手套捏着一张塑封安全卡。一柄长红光剑别在腰间,挨着一把服务推车钥匙。他在演示安全带扣,带着"今天第四趟航班"的乘务员级别耐心。后面两排,一个婴儿在哭。乘务员推着饮料车从他身边绕过。没有人对装扮、呼吸、剑发表任何意见。笑点是反应的缺席 —— 包括反派自己在内,大家都只想把这班飞完。

原样复制粘贴:

Tight 24mm cabin lens, narrow aisle of a discount short-haul airliner mid-flight, slow dolly forward at walking pace. A tall figure in flowing dark robes and a polished black helmet, long cape brushing seat headrests, demonstrates the seat-belt buckle of a laminated safety card to two seated passengers. A red glowing blade is clipped to his belt next to a service-cart key. Overhead reading lights cast soft top-light, picking out the helmet curve and the seat-back fabric. Sound: heavy mechanical breathing inside the helmet, cabin PA chime, plastic seat-belt clack as he demonstrates, plastic cups rattling on a trolley behind him, a baby crying two rows back, no music. Photoreal. Final beat: he nods once, lowers the safety card, the dolly stops. Generic costume, no franchise logos.

24mm 机舱广角在这里干重活:它压缩走道,逼斗篷真去蹭真实的座椅靠背 —— 这一次接触,就把调度落地了。头顶阅读灯而不是电影主光,让布光老老实实是日光灯,这就是为什么戏服看上去格格不入,而不是电影感。慢推匹配的是机上安全演示的节奏,顺便让观众有时间看到呼吸把头盔玻璃糊上一层雾。声音侧,头盔呼吸压在广播提示音下面,就是整段情感载荷 —— 高规格威慑叠在交通工具里最无聊的一段播报上。最后那一拍点头,给剪辑留了一个干净切点。

视觉关键帧:穿长袍、戴黑头盔的人捏着塑封安全卡的边角,头顶机舱阅读灯打下来。 声音关键帧:沉重机械呼吸叠在愉快机舱广播和远处一声婴儿哭之下。

10 — 冷面纪录片作者旁白,讲一段宜家拼装

客厅地毯上一双手在拼装平板包装家具,窗光从一侧斜进来,AI 视频提示词的作者腔旁白画面

一段客厅戏,机位锁死在人眼高度。白天的窗光从侧面落在裸木地板上和半拼好的平板包装衣柜上。手进进出出:转动一根榫钉、对齐一块板、拿着内六角扳手像在提问。拼装者的脸自始至终不出现 —— 只有躯干、手,和缓缓堆起来的纸板。画外,一段沙哑的欧洲口音男声在缓慢的停顿里,讲着预钻孔的冷漠、内六角扳手带来的安静羞辱。声音从不上扬。手从不停下。整段戏走完,衣柜也没拼完。

原样复制粘贴:

Static locked-off mid-shot, living room interior at eye level, soft daylight from a window camera-right falling across bare floorboards and a half-assembled flat-pack wardrobe. A pair of hands enters frame, turns a wooden dowel into a particleboard panel, tests an Allen wrench against a hex bolt. Mid-shot of the assembler's torso only — no face visible, neutral grey sweatshirt, cardboard scattered around. Occasional close-up cutaways to a single screw spinning, a torn corner of cardboard. Sound: slow gravelly European-accented voice-over with long pauses, the click of plastic dowels seating, cardboard tearing, distant traffic outside, no music. Photoreal. Final beat: the hands set the Allen wrench down on the floor; voice-over trails off mid-sentence. Generic flat-pack, no brand text.

锁死的中景给画外音留出呼吸空间 —— 任何镜头运动都会跟那段语速抢戏,而语速本身就是包袱。侧面窗光是故意不讨好的,它把这件家务从所有电影级"美化滤镜"里抽走,让旁白听起来像在评论一段真实生活。把拼装者的脸藏出画框,这双手就成了唯一的主角,让欧洲口音的男声扛起情绪,而镜头里没人在"演"。纸板撕裂和榫钉就位的拟音保持在对话音量,画外音不用跟声音床抢注意。

视觉关键帧:阳光照在客厅地毯上的一双手,扳手悬在半拼好的衣柜板上方。 声音关键帧:沙哑作者腔旁白,叠在塑料榫钉的咔嗒声和远处车流上。

11 — 1986 年一支不存在品牌的早餐麦片广告

三个穿粉彩冲锋衣的孩子坐在格纹墙纸厨房的餐桌前,AI 视频提示词的 1986 年早餐麦片广告复古画面

一支三十秒的 1986 年早餐麦片广告,品牌从未存在过。三个穿粉彩冲锋衣的孩子坐在格纹桌布的厨房里,原色红黄推到溢出来的边上,镜头中近距推进一碗带牛奶的麦片,一支勺子从画框外飞进来。一颗霓虹星芒图形在下三分之一爆开。低沉男声播音员甩出标语,儿童合唱团接上口号,麦片盒在虚空黑色背景里慢慢自转。CRT 扫描线爬过每一帧。笑点不在品牌(那个空着随你填),笑点是整套格式有多完整地被重建出来。这类年代级的活儿也能当作任何复古向生日视频生成器项目的脚手架 —— 当包袱是"年代"而不是"礼物"。

原样复制粘贴:

1986 children's breakfast cereal television commercial, 4:3 safe-frame composition, heavy CRT scanlines, chroma bleed on saturated reds and yellows. Open on a kitchen with checkerboard wallpaper and a checkered tablecloth, three children aged seven to ten in pastel windbreakers smiling at camera, mid-zoom into a milky cereal bowl as a spoon flies in from the right. Cut to a neon starburst lower-third graphic, cut to the cereal box rotating slowly on a void-black hero shot. Sound: compressed mono mix, upbeat synth-and-slap-bass jingle, children's chorus chanting a four-syllable slogan, deep-voiced male announcer delivering the tagline over the final box shot, classic crunchy cereal-pour foley. Photoreal video-tape aesthetic. Generic fictional brand, no readable text.

4:3 安全框无法妥协 —— 宽屏立刻把年代感打破。CRT 扫描线 + 色偏在年代提示词里扮演的角色,等同于胶片提示词里的颗粒;没有它们,饱和的红就读作 Instagram,而不是周六早晨。中近距冲进麦片碗,是 1980 年代每一支麦片广告都用的剪辑节拍;结尾虚空黑底英雄镜头,是这个年代锁住品牌的收束,即使盒子上没有一个能读的字。slap-bass 贝斯 jingle 和儿童合唱团是这个年代的混音签名 —— 缺了,广告就读成戏仿,而不是承诺。年代的声音,把图像开启的幻觉收尾。

视觉关键帧:中近距冲进一碗带牛奶的麦片,一支勺子从右边飞入,4:3 画框上爬着扫描线。 声音关键帧:slap-bass 合成器 jingle 顶着儿童合唱团,加一段男中音播音员标语。

12 — 玻璃水果刀切 —— 不可能物理的 ASMR 循环

俯拍微距:一柄厨刀正在橡木砧板上切一只透明玻璃苹果,AI 视频提示词的 ASMR 循环画面

一段完美的俯拍微距:一柄主厨刀按真实速度下落,穿过一只完全透明的水晶苹果,苹果搁在一块深色橡木砧板上。刀刃像遇到玻璃那样遇到阻力,然后从中间干净地分开。结晶碎片把头顶的灯折射成一道道彩虹光条扫过木纹。没有音乐。没有旁白。整段戏的尾巴回到它的起点 —— 两个半瓣轻轻摇晃后归于静止 —— 这样它就可以永远循环下去。如果这种场景对你胃口,你能在同一套微距循环逻辑的 12 个 ASMR 拍摄配方里找到换不同材质和道具的变体。

原样复制粘贴:

Top-down macro shot, locked off, 100mm lens, 0.5x speed. A chef's knife with a brushed steel blade descends slowly into a single fully transparent crystal-glass apple resting on a dark oak chopping board. The fruit splits cleanly, halves rocking apart, revealing tiny faceted glass seeds inside. Single soft overhead key light through a sheer scrim catches the blade edge and throws refracted shards of rainbow light across the wood grain. No hands fully in frame — only fingertips on the knife handle. Sound: a sharp clean glass-on-glass slicing chime as the blade enters, a low resonant ring as the halves rock, a dull wood thud as the knife taps the board, gentle ambient room tone, no music, no narration. Photoreal. Final beat: halves come to rest, three seconds of stillness for a seamless loop.

俯拍微距是唯一能撑住"不可能物理 ASMR"的画框 —— 任何侧角度都会暴露几何作弊,法术就破。100mm 镜头配 0.5 倍速度,买给眼睛时间去识别折射 —— 这正是整条提示词围绕的视觉付款。一支柔光屏过滤的头顶单光,避免玻璃表面反光把切口吃白。声音侧,玻璃对玻璃的叮当是头号节拍 —— 它必须落在木头的咚之前,否则大脑会把这个物件读作树脂而不是水晶。结尾三秒室音是循环无缝的密钥;少了它,每次重播的拼接缝都听得见。

视觉关键帧:拉丝钢刀刃切到一半的透明水晶苹果,彩虹折射条扫过橡木砧板。 声音关键帧:干净的玻璃对玻璃叮当声落进低位共鸣环,再落到一声闷闷的木头敲击。

三个会把成片彻底毁掉的提示词错误

下面是几条即便看上去够长,也照样让成片不能看的杀手。

**模糊的动词。**最常见的失败是要求一个动作,但没有标注它的节奏、方向或终止姿态。"走来走去""做点什么""互动着"—— 这些不是指令,是耸肩,渲染器会用同样的耸肩回应你。模型训练在数百万条片段上,需要的是矢量:谁动、什么速度、什么方向、停在哪里。把每一个软动词换成"具体物理动作 + 速度提示 + 跟画框的关系"。代价是多写十个字,省下三次重跑。

改前:"一个人在夜里的城市里走来走去"

改后:"一个外卖小哥骑摩托从左到右以 1.2 倍步速经过,在画面中央刹车,把脚撑踢下"

**冲突的镜头运动。**第二种翻车是一条提示词同时要求两种不兼容的运动 ——"慢变焦同时摇镜""航拍揭示后变手持跟随""推进时绕 360 度环绕"。真实的电影摄影一段镜头只让一种运动主导;渲染器没那个调度本事去融合两种,只能取一个尴尬的平均值,出来就抖。挑那个跟情绪匹配的运动(推轨表达亲密、航拍表达规模、手持表达紧迫、静止表达不安),然后整段八秒交给它。

改前:"一段慢摇镜的同时也向主体脸部变焦"

改后:"锁机位静态中近景,主体填满右下三分之一,无镜头运动"

**忘了写声音。**第三种错误是把提示词当成静态图 brief 来写。如果你不命名音频,你拿到的要么是沉默、要么是罐头音乐、要么 —— 最糟 —— 一条跟画面打架的拟音轨。本文里每个配方都给了一行"声音关键帧",是有理由的。命名同期源(湿沥青上的脚步声、冰箱嗡鸣、一句带语气标注的对白),渲染器的音频遍历就有了目标。这一点上,场景类型也很重要:如果你在做节日主题,节日专属提示词集展示了一个声音选择 —— 打火机的咔哒、椅子的拖刮 —— 怎么单独锚住一整段记忆。

改前:"父亲和孩子在厨房,暖光,有情感"

改后:"父亲和孩子在厨房岛台前;声音关键帧:两个咖啡杯轻轻磕在台面上,一句轻声的'早,小子',冰箱嗡鸣垫在底下"

把这三条修了,上面的配方第一次生成就能命中。

挑一个跟你今晚要发的平台对得上的配方 —— 作品集卷里塞一段一镜推轨、Shorts 里塞一段伪执法记录仪的荒诞、故事预告里塞一段超写实特写 —— 然后在按生成之前,过一遍五维检查。框架是让你不用从零重写就能换主体的东西,反模式是让你不至于在一段本来就跑不出来的提示词上烧一次额度的护栏。

跑完这 12 个还想继续,有两篇相邻的可以接上:第 1 条的长一镜镜头语言可以直接迁移到一整支书籍预告片的结构性节拍;黑色厨房和执法记录仪的腔调可以延伸到同一套五维骨架下的恐怖故事提示词库。两篇用的是同一套五维脚手架,肌肉记忆能直接迁过去。

打开 /dashboard 的编辑器,今晚就把其中一个发出去。

标签

#AI 视频提示词#AI 视频 prompt#text to video 提示词#电影感 AI 视频 prompt#AI 视频脚本

常见问题

01一段好的 AI 视频提示词长什么样?

一段好的 AI 视频提示词,用大白话说清五件事:主体、镜头(焦段、角度、运动)、布光(光源、色温、硬度)、风格(年代、颗粒、调色)、动作(第一秒发生什么,最后一秒结束在哪)。其它都是装饰。如果你的提示词不超过一段密文,但读起来是这五个问题的清楚答案,生成器就有足够的东西去承诺。'电影感''美'这种氛围词几乎没用 —— 具体的名词和动词才有用。

02怎么给视频写 AI 提示词?

先决定格式 —— 第一人称 vlog、伪执法记录仪、一镜推轨、变身一镜 —— 因为格式直接决定镜头和声音。然后把场景写得像你正在 brief 一位真的摄影指导:摄影机站在哪、用什么焦段、怎么动、前景背景里有什么、光从哪里来。再加一句声音设计(环境 + 关键音),加一句开场和收尾的动作。所有不能落到像素上的形容词都砍掉 ——'史诗''惊艳''酷炫'什么都不加。

03新手有什么能直接抄的 AI 提示词例子?

新手最快的路径,是把本文 12 个场景里的任意一个抄下来,只换一个变量 —— 把第一人称 vlog 里的'冲锋队员'换成'雪人',把'宜家拼装+作者腔旁白'换成'超市自助结账',把'黑色电影审讯+烤面包机'换成'水壶'。单变量替换会保留住那段已知能干净渲染的结构骨架,同时让你看清提示词里哪几句话在真正扛活。

04有哪些 AI 工具能从提示词生成视频?

现在大多数 web 端编辑器都让你把提示词粘进去、选个画幅比、生成,完全不用你选后端。最干净的工作流是把提示词写得跟模型无关 —— 用电影语言命名镜头、布光、声音 —— 剩下的让编辑器的默认路由处理。如果默认产出看起来糊,先提高具体度(加焦段、色温、眩光方向),再去怪系统。生成器奖励具体名词,不奖励更大声的形容词。

05有没有不花钱就能测试 AI 视频提示词的办法?

大多数编辑器都给免费额度或几次起步 credit,足够验证一段提示词结构有没有按你设想的渲出来。把免费跑用在结构上:先测镜头运动那一句,再加布光,再加音频备注。如果你只有三次免费跑,一次花在格式上,一次花在布光上,一次花在最终合成的提示词上。别把额度烧在调形容词上 —— 烧在结构性决定上。

06为什么我生成的视频看起来很普通?

几乎一定是因为提示词用了氛围词而不是物理规格。'电影感布光'是普通的;'镜头右侧一支柔主光,日落色温,背后硬轮廓光,无补光'不是。镜头运动也一样('手持' → '手持 16mm 广角,带轻微纵向晃'),声音也一样('氛围声' → '远处车流轰鸣,无音乐,画外微弱的 AM 电台漏过来')。具体度是普通感的解药。

07AI 视频提示词应该写多长?

一段密集的段落是甜蜜点 —— 够长,主体、镜头、布光、风格、动作都说得清楚,模型不会丢主线;又够短,前 200 字仍然能主导产出。把提示词拆成多段,常常稀释优先级。如果还有话要说,把动词收紧、把形容词换成具体名词,而不是再加一句。长度不是具体度,具体度才是具体度。