字节跳动,这家抖音背后的科技巨头,刚刚在AI视频生成的军备竞赛中发出了一声震耳欲聋的炮响,因为该公司的云部门推出了两个视频生成器:PixelDance和Seaweed。
这些生成器在上周深圳的一次活动中发布,目前仍处于私人测试阶段,仅对有限数量的用户开放。然而,YouTuber Tim Simmons声称,根据美国大选的结果,这些模型可能在下个月公开可用。
“我确实与[一位匿名消息源]谈过此事,我能说的最好是,别指望在11月之前有结果,因为……政治因素,”他在对这些模型的视频评测中说道。
演示视频首次在中国网站微信上展示。
PixelDance专注于AI驱动的角色动画,生成10秒的视频,展现出惊人逼真的人类动作。该模型提供流畅自然的表演——角色可以行走、转身、拾起物体,并以以前认为不可能的方式与环境互动。
但PixelDance真正的魔力在于其多镜头能力。该模型在不同摄像机角度下保持角色外观、比例和场景细节的显著一致性。这一特性解决了AI视频生成中的一个主要难题,即在镜头之间保持视觉一致性一直是一个挑战。这就是为什么大多数最先进的视频生成器专注于在单一视频序列中生成流畅的运动。
PixelDance的摄像机控制也与Pika、Runway的Gen 3或Kling等其他主要模型相当,使其成为AI电影摄影的一个极佳补充,几乎没有妥协。用户只需一个简单的文本提示,就可以指挥复杂的摄像机运动,如360度平移、变焦、跟踪镜头等。
例如,以下视频的提示大致翻译为:黑白画面,摄像机围绕戴着太阳镜的女人拍摄,从她的侧面移动到前面,最后聚焦于女人脸部的特写。
在其他模型中,摄像机控制是通过用户界面进行的,使用按钮和滑块。
Seaweed,PixelDance的兄弟,推动了环境生成和一致性的边界。该模型将视频生成扩展到完整的30秒——并可能延长到近2分钟的一致镜头。
字节跳动的时机再好不过。自从OpenAI在2月份宣布Sora以来,AI视频生成领域一直处于兴奋状态。Sora声称能够从文本提示生成长达60秒的高质量视频,这一消息在科技界引起了震动。然而,Sora仍未向公众发布,其他公司正在争相填补这一空白。
另一家中国科技巨头快手在6月份推出Kling AI,掀起了波澜,许多评论者将其列为AI视频质量的首选。集成在快手的视频编辑应用中,Kling AI也可以生成两分钟的视频,甚至超越了Sora的能力。该工具迅速吸引了超过260万用户,共同生成了2700万段视频。然而,它生成的是单镜头拍摄,使其在质量上与字节跳动的产品相当,但在功能上稍显不足。
周二,Pika Labs——另一家在生成视频领域的老牌公司——发布了其新款Pika 1.5模型,增强了其已经优秀且广泛采用的视频生成器的能力。“凭借更逼真的运动、大屏幕镜头和突破物理法则的惊人Pikaffects,Pika比以往更值得喜爱,”Pika Labs在官方推特上说道。
Pika 1.5可以在Pika的官方网站上进行测试,社交媒体上已经充满了展示Pika如何通过压碎和爆炸人和物体来疯狂改变场景的视频——或者切开它们以揭示内部的虚拟蛋糕。
字节跳动在其最新的视频应用中构建了基于专有文档图像转换器(DiT)架构的Doubao基础模型家族。人们认为它们与驱动Sora的技术有相似之处。该公司声称已针对商业应用优化了DiT,可能降低了AI视频创作的成本门槛。
自5月推出以来,Doubao AI家族的爆炸性增长凸显了这些模型的潜力。每日令牌处理量从1200亿激增至1.3万亿,反映出使用量增长了十倍。Doubao现在每天处理超过5000万张图像和85万小时的语音,正如Kr-Asia所报道的。
字节跳动的激进定价策略推动了这一增长。自5月以来,该公司已将每千个令牌的成本削减至几分之一美分,引发了阿里巴巴和腾讯等主要参与者之间的激烈价格战。
显然,字节跳动的策略——在TikTok的算法生成中大量依赖AI——正在取得成效。TikTok及其中国版本抖音近年来一直是增长最快的社交媒体平台,但它们由一家中国科技公司拥有的事实让西方国家感到担忧。
目前尚不清楚字节跳动是否会将其生成AI模型集成到其应用中——类似于Meta将其基于Llama的LLM和生成器集成到Instagram和WhatsApp中——更不确定的是,一旦这些模型公开发布,美国公民是否能够访问它们。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。