扎克伯格最近忙着在全全国「抢风头」色妹妹激情网。
前不久,开启「二次创业」的他刚向咱们展示了十年磨一剑的最强 AR 眼镜 Meta Orion,尽管这仅仅一款押注改日的原型机器,却抢光了苹果 Vision Pro 的风头。
而在昨晚,Meta 在视频生成模子赛说念再次大出锋头。
Meta 示意,全新发布的 Meta Movie Gen 是迄今为止早先进的「媒体基础模子(Media Foundation Models)」。
不外,先打个防患针,Meta 官方当今尚未给出明确的开放时辰表。
官方声称正在积极地与文娱行业的专科东说念主士和创作家进行交流和配合,瞻望将在来岁某个时候将其整合到 Meta 我方的产物和作事中。
怒放新闻客户端 升迁3倍流通度浅近追想一下 Meta Movie Gen 的特质:
领有个性化视频生成、精准视频编订和音频生成等功能。
复古生成 1080P、16 秒、每秒 16 帧的高清长视频
麻豆视频能够生成最长 45 秒的高质料和高保真音频
输入浅近文本,即可罢了复杂的精准视频编订功能
演示后果优秀,但该产物瞻望来岁才会崇敬向公众开放
告别「哑剧」,功能主打大而全
细分来说,Movie Gen 具有视频生成、个性化视频生成、精准视频编订和音频生成四大功能。
文生视频功能早已成为视频生成模子的标配,仅仅,Meta Movie Gen 能够字据用户的需求生成不同长宽比的高清视频,这在业内尚属创始。
Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.
Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.
此外,Meta Movie Gen 提供了高等的视频编订功能,用户只需通过浅近的文本输入即可罢了复杂的视频编订任务。
从视频的视觉立场,到视频片断之间的过渡后果,再到更淡雅的编订操作,这少量,该模子也给足了解放。
在个性化视频生成方面色妹妹激情网,Meta Movie Gen 也前迈进了一大步。
用户不错通过上传我方的图片,期骗 Meta Movie Gen 生成既个性化但又保捏东说念主物特征和行为的视频。
Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.
从孔明灯到透明彩色泡泡,一句话爽快替换视频归拢物体。
Text input: Transform the lantern into a bubble that soars into the air.
尽管本年不息已有不少视频模子接踵亮相,但大多只可生成「哑剧」,食之无味弃之可惜,Meta Movie Gen 也莫得「旧调重弹」。
怒放新闻客户端 升迁3倍流通度Text input: A beautiful orchestral piece that evokes a sense of wonder.
用户不错通过提供视频文献或文本实质,让 Meta Movie Gen 字据这些输入生成相对应的音频。(PS:扎眼滑板落地的配音)
怒放新闻客户端 升迁3倍流通度何况,它不仅不错创建单个的声息后果,还不错创建配景音乐,以致为扫数这个词视频制作完满的配乐,从而极地面升迁视频的全体质料和不雅众的不雅看体验。
看完演示 demo 的 Lex Fridman 提纲振领地抒发了歌咏。
很多网友再次「拉踩」OpenAI 的期货 Sora,但更多翘首企足的网友照旧动手期待测试体验履历的开放了。
Meta AI 首席科学家 Yann LeCun 也在线为 Meta Movie Gen 站台宣传。
Meta 画的大饼,值得期待
在推出 Meta Movie Gen 之时,Meta AI 酌量团队也同时公开了一份长达 92 页的时候论文。
据先容,Meta 的 AI 酌量团队主要使用两个基础模子来罢了这些世俗的功能——Movie Gen Video 以及 Movie Gen Audio 模子。
其中,Movie Gen Video 是一个 30B 参数的基础模子,用于文本到视频的生成,能够生成高质料的高清视频,最长可达 16 秒。
模子预查验阶段使用了大宗的图像和视频数据,能够浮现视觉全国的各式观念,包括物体融会、交互、几何、相机融会和物理规章。
为了提高视频生成的质料,模子还进行了监督微调(SFT),使用了一小部分全心挑选的高质料视频和文本标题。
敷陈高傲,后查验(Post-training)历程则是 Movie Gen Video 模子查验的遑急阶段,能够进一步提高视频生成的质料,尤其是针对图像和视频的个性化和编订功能。
值得一提的是,酌量团队也将 Movie Gen Video 模子与主流视频生成模子进行了对比。
由于 Sora 当今尚未开放,酌量东说念主员只可使用其公建树布的视频和辅导来进行比拟。关于其他模子,如 Runway Gen3、LumaLabs 和 可灵 1.5,酌量东说念主员选择通过 API 接口来自行生成视频。
且由于 Sora 发布的视频有不同的分辩率和时长,酌量东说念主员对 Movie Gen Video 的视频进行了剪辑,以确保比拟时视频具有同样的分辩率和时长。
闭幕高傲,Movie Gen Video 全体评估后果上显耀优于 Runway Gen3 和 LumaLabs,对 OpenAI Sora 有轻浅的上风,与可灵 1.5 相等。
改日,Meta 还贪图公建树布多个基准测试,包括 Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,以加快视频生成模子的酌量。
而 Movie Gen Audio 模子则是一个 13B 参数的模子,用于视频和文本到音频的生成,能够生成长达 45 秒的高质料和高保简直音频,包括声息后果和音乐,并与视频同步。
该模子给与了基于 Flow Matching 的生成模子和扩散变换器(DiT)模子架构,并添加了寥落的条目模块来提供限定。
以致,Meta 的酌量团队还引入了一种音频扩张时候,允许模子生成超出驱动 45 秒为止的连贯音频,也即是说,无论视频多长,模子皆能够生成匹配的音频。
昨天,OpenAI Sora 负责东说念主 Tim Brooks 官宣下野,加盟 Google DeepMind,给远景不解的 Sora 款式再次蒙上了一层黯澹。
而据彭博社报说念,Meta 副总裁 Connor Hayes 示意,当今 Meta Movie Gen 也莫得具体的产物贪图。Hayes 显现了延伸推出的遑急原因。
Meta Movie Gen 刻下使用文本辅导词生成一个视频往往需要恭候数十分钟,极大影响了用户的体验。
Meta 但愿进一步提高视频生成的遵循,以及罢了尽快在挪动端上推出该视频作事,以便能更好地满足消耗者的需求。
其实如若从产物形态上看,Meta Movie Gen 的功能假想主打一个大而全,并莫得像其他视频模子那样的「瘸一条腿」。
最隆起的舛误,酌定即是沾染了与 Sora 一样的「期货」气味。
理念念很丰润,实践很骨感。
大概你会说,一如当下的 Sora 被国产大模子赶超,比及 Meta Movie Gen 推出之时,视频生成限度的竞争形态大概又会变换一番光景。
但至少当今来看色妹妹激情网,Meta 画的大饼足以让东说念主下咽。