Descargitas

来自中国的最新突发新闻。

中国的生成视频竞赛正在升温

中国的生成视频竞赛正在升温

周一,以视频游戏帝国和聊天应用程序微信而闻名的中国互联网巨头腾讯, 揭幕 GitHub 上开源视频生成模型 DynamiCrafter 的新版本。 这提醒我们,中国一些最大的科技公司正在悄悄加大力度,在文本和图像到视频转换领域做出改变。

与市场上其他生成视频工具一样,DynamiCrafter 使用扩散方法将字幕和静态图像转换为几秒长的视频。 受到物理学中扩散的自然现象的启发机器学习中的扩散模型可以将简单的数据转化为更复杂和现实的数据,类似于分子如何从高浓度区域移动到另一个低浓度区域。

第二代 DynamiCrafter 生成像素分辨率为 640 x 1024 的视频,这是对 10 月份初始版本(包括 320 x 512 视频)的升级。 发布 DynamiCrafter 的团队指出,其技术与竞争对手的技术不同,因为它将图像动画技术的适用性扩展到“更一般的视觉内容”。

该论文称:“基本思想是建立在之前的文本到视频扩散模型的基础上,将图像作为启发式纳入生成过程中。” 相比之下,“传统”技术主要侧重于使用随机动力学(例如云和流体)或特定领域的运动(例如人的头发或身体运动)来动画自然场景。

在演示中(见下文)比较 DynamiCrafter、Stable Video Diffusion(已推出) 十一月),以及 最近推广的皮卡实验室,腾讯模型的结果显得比其他模型活泼一点。 不可避免的是,所选的样本会偏向 DynamiCrafter,而且在我最初的几次尝试之后,没有一个模型给我留下了人工智能很快就能制作整部电影的印象。

然而,继生成文本和图像的繁荣之后,生成视频作为人工智能竞赛的下一个焦点而被寄予厚望。 因此,预计初创公司和科技公司将向这一领域注入资源。 这在中国也不例外。 除了腾讯之外,字节跳动、TikTok的母公司百度、阿里巴巴也都发布了自己的视频发布模式。

双方都是字节跳动 com.MagicVideo 还有百度 大学 他们已在 GitHub 上发布了演示,但似乎尚未公开。 和腾讯一样,阿里巴巴也建立了自己的视频生成模型VGen 开源这是一种在希望接触全球开发者社区的中国科技公司中日益流行的策略。

https://platform.twitter.com/widgets.js

READ  英特尔第 14 代 Raptor Lake 更新规格再次泄露