某岛

… : "…アッカリ~ン . .. . " .. .
February 20, 2024

Sora 的想象与思考

Not everything that isn’t true is a lie. —— Black Mirror

You can’t fight progress. The best you can do is ignore it, until it finally takes your livelihood and self-respect away. —— Kurt Vonnegut,Jr.

后 ChatGPT 时代,人工智能的发展似乎没有我们想象的那样慢,也没有我们想象的那样快,它以一种温和的、如同温水煮青蛙般的节奏正在缓慢的侵蚀着我们曾经熟悉的周遭世界。

尽管依然有 很多很多 fundamental 问题 没有解决,在刚刚结束的农历新年里,依然有许多非常重要的 Breakthrough 正在发生着。

Google 发布了 Gemeni 1.5,Navida 发布了 Chat with RTX,当然这其中最让人震惊的一定还是 OpenAI 最新的 text2video 模型 Sora 了。

比如 下面这组 Sora 与之前的 SOTA text2video 模型 Sora 和 Stable Video 的对比,差距可能比之前 ChatGPT 之于 GPT-3,NovelAI 之于 GAN 显得还要直观。

下面这一组 Sora vs Pika vs RunwayML vs Stable Video 四宫格的对比,就更明显了,无论是时长、画面、稳定性、连续性、等等参数几乎都是全方位的碾压,有一种帝王时代殴打黑暗时代的美。

记得那会儿 ChatGPT 和 NovelAI 刚出来的时候,我就在公司里极力跟我们的美术推荐这些新技术,病组织大家一起学习各种进阶的使用方法,只是遗憾的是,彼时的技术力和能推进到实际生产中其实有非常大的差距。但是当我们来到 2023 年末尾,仅仅一年不到的时间,文生图模型都变得越来越强,各种好用的工具也层出不穷,几乎所有的公司都将这些技术融入到了团队的工作流中,甚至各种 Text-2-3d 也变得越来越可用。https://zhuanlan.zhihu.com/p/681621437

但是以上所有的这些和一个能直接投入生产的 Text-2-Video 模型所造成的破坏力都无法比 —— 几乎我立刻就能想到,在不远的将来,广告,电影,游戏,etcs 这些行业将发生怎样翻天覆地的变化。