这周我致力于解决AI视频创作中生成逼真对话的难题,尤其是在角色长时间连续说话(如30-60秒的推荐感言或独白)时避免陷入“恐怖谷效应”。我发现并非所有AI视频类型都面临相同挑战:解说类或电影感视频可通过切换镜头、插入空镜和调整节奏来掩盖瑕疵,而聚焦于单人长时间讲话的内容则对唇形同步和真实感要求极高。通过大量测试不同工具和场景(包括AI解说、用户证言及个人项目),我总结出两套可复现的工作流程:对于解说/电影类视频,先用Mid Journey等选定角色并构建场景,经Nano Banana Pro提升图像真实感后,用11 Labs生成音频,再组合使用VEO 3.1、HeyGen等生成视频,最后通过剪辑技巧修饰;对于高难度的推荐/独白类内容,则亲自录制带自然语气的配音,用11 Labs或Minimax转换音色,再借助HeyGen(保持口型一致)或Kling 2.6的运动控制功能(通过参考视频驱动角色动作与唇形)生成视频。关键发现包括:工具需组合使用(无万能方案)、高分辨率未必效果更好(720p有时比1080p更自然)、避免用上一帧作为下一段开头以防质量退化,以及Sora可作为表演引擎生成参考音频。最终,这些方法帮助我跨越了“恐怖谷”门槛,并将持续优化以应用于实际创意项目。
微海报





