Hi,大家好呀~我是一枚对AI十分感兴趣的一枚程序员,一直在思考如何能够利用openAI技术,搞一搞自己的小副业。去年2月,chatgpt一夜爆火。没想到,今年2月,OpenAI又整了个大的。一个叫Sora的AI视频工具,横空出世。
Sora 目前还在内测中,以 GPTs 的经验,大概率需要 GPT4 才能开通,感兴趣的同学可以看看我的 GPT4 .0直接用
爆火范围,穿透科技圈、AI爱好者圈,朝着普通人迎面而来。据说,很多做视频的,做剪辑的,瞬间就慌了,感觉饭碗要被砸了。恐慌程度,甚至超过Chatgpt(感兴趣的同学可以看看我总结的使用说明书)面世时。到底为啥呀?今天,我们就来唠唠可能产生的影响。(PS:仅代表个人观点和知识面的总结语思考,欢迎讨论纠错~)
1、央媒亲自下场报道:央视非常罕见的报道 OPENAI 的最新模型,甚至成立了专栏,专门邀请国内 AI 应用以及科学家进行圆桌讨论,讨论该模型的影响2、全民狂热:不管是媒体铺天盖地的文章和技术测评,还是全民主动搜索意愿,都能说明大家都被他的效果震惊到了微信指数:sora 最近这几天的热度已经超过了 gpt百度指数也侧面反映了 sora 的狂飙3、媒体阅读量AI 自媒体-卡兹克,凭借 SORA 的公众号文章,一篇文章一天突破了百万阅读
2.1 如何使用?
咱不是搞技术的,就不试图分析技术原理了。我们只从呈现效果、生成难度来分析,这个东西有多牛掰。大佬们用三个词总结Sora:60s超长长度、单视频多角度镜头、世界模型。三个词咋理解呢?看看下面这段gif,视频时长59秒。一句话解释:用一段文字生成60s视频的工具。(Sora)
而给Sora的命令,只有111个字。一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。仔细看看这段提示词,你可能会发现,其中并没有明确提到镜头切换的指示。然而,Sora却自动为我们带来了多角度的镜头变换,既有宽广的远景,又有细腻的近景,整个运镜流程宛如一部专业级的影片。这说明了什么?这恰恰证明了Sora在深度学习了无数影片后,已经深刻理解了镜头语言的奥秘。那么,究竟什么是“世界模型”呢?让我带你回到那个曾风靡一时的概念——“元宇宙”。元宇宙的理念是创建一个与真实世界相互交织的虚拟世界,人们通过智能穿戴设备就能沉浸其中。然而,随着时间的推移,人们逐渐意识到模拟一个真实世界是多么的巨大挑战。要构建这样一个世界,需要多少人力物力去创造数不尽的模型啊!更何况,当时的很多智能设备技术也还远远达不到要求,于是元宇宙的热度逐渐冷却。但现在,Sora为我们带来了全新的希望。它告诉我们:只要给它一段话,它就能为你自动生成一个三维的世界模型。不论是樱花飘洒的东京街头,还是充满未来感的赛博朋克世界,甚至是一家人欢聚一堂的生日派对,所有这一切,都只需要你的一句话。Sora用它的实力告诉我们,创造虚拟世界不再是一个遥不可及的梦想。
2.2 什么原理?(可以跳过)
非技术向的同学可以先跳过,这里简单介绍 SORA 的原理,感兴趣的同学,我会在后面出一篇文章介绍技术原理和相关的论文。下面的原理来源于官网的技术报告,感兴趣的同学可以直接阅读原文:Video generation models as world simulators (openai.com)
核心 1:视觉数据(图像/视频)表示成成「patch」
借鉴与大语言模型通过 token 来处理数据,SORA 把视频数据进行统一编码,引入了 patch 的概念。patch 在技术报告中被证明了是一种很好的「表征视频/图像数据」的一种表示方法
核心 2:视频压缩网络
这是一种可以减少视频数据维度的神经网络,通俗理解,就是把高维数据降到低维,可以减少训练量和推理的成本。最终是成对的,一个是编码器,另一个是解码器,目的是为了在训练的时候减少成本编码:输入:原来的视频输出:在潜空间(latent space)的视频表示解码输入:在潜空间(latent space)的视频表示输出:原来的视频
核心 3:时空的潜在(latent)patch 表示
类似 token 在 llm 是最小单元一样,在视频中,patch 就是最小处理单元。这里需要注意的是,作者支出,图像就是一帧的视频,这里蕴含的意义很大,意味着图像和视频一样,都可以用来训练和处理!!
核心 4:Transformer
Sora 是一个 diffusion 模型,通过接收带有噪声的图像块作为输入,训练预测清晰的图像块。那么在图像/视频领域,最新处理单元变成了 patch,输入就是 带有噪声的 patch,输出组成视频块的 patch。而这里作者发现,大力出奇迹在视频模型仍然使用!
2.3 技术文章科普
后续技术补充讨论:
- sora 技术报告:https://baoyu.io/translations/openai/video-generation-models-as-world-simulators?continueFlag=808a2771ff6d62a86c46166c748ef48d
- sora vs runaway 技术架构区别:https://weibo.com/1727858283/O10mdso29
- patch
- Patch 只是预测生成结果的最小单位,一个 patch 可以只有几个画面帧中的一小点,不是说得一镜到底才行,类似于一个 token 只是一个单词或者半个单词
- patch 还是很好翻译的,图像块。如果你学过图像处理的话,分块操作是十分常见的。分块好固定尺寸,方便写代码中的 for 循环。
- 感觉 patch 就是非常非常小的视频,小到像素级别就是颜色的连续变化,这些作为视频训练和生成的最小单位太合适了,因为里面天然就包含了连续变化的信息,这些连续变化的像素点的信息被学习后就可以被重新组装成更大的完整的视频
- sora 技术推演:一文看 Sora 技术推演 (qq.com)
- 关于 patch:万字长文深度解析 Sora 的核心技术,解密 OpenAI 掌控时空的秘密武器 (weibo.com)
2.4 Sora和市面上其他模型的区别
最大的区别就是,SORA 可以生成 1 分钟的稳定长视频,而且生成的画面质量远高于其他模型大家可以通过以下两个维度自己去判断 Sora 模型和其他模型的区别
- 生成画面的质量:Sora 肉眼可见的生成了非常高质量的的画面,无论是时间上的连续性还是空间上的连续性(不同分镜下人物/物体的统一性)
- 视频的长度:Sora 大概是 1min,而其他模型基本是 3-4s
Sora:什么 pika,runaway 的,都给我跪下!
3.1 从chatgpt带来的启发
chatgpt是语言层面的应用很多,已经可以自动生成文案,而且是多语言的文案。相当于解放了思维的一维层面。根据目前的应用,主要包括以下几个方面:1. 文本生成用于生成新闻、博客、报告等内容。这种技术可以根据输入的数据、模板和语言模型生成人类可读的文本。文本生成技术还可以用于生成代码、诗歌、小说等各种不同类型的文本。主要是可以节省人力,并且可以生成大量的高质量的文本。2. 自动文摘对大量文本内容进行简化、概括的技术。采用机器学习和自然语言处理方法,识别文本中的关键信息,生成简明、准确的摘要。可以大大缩短文本阅读时间,提高效率,帮助用户快速了解文本内容。它在新闻、科技、商业等领域都有广泛应用。3.语音合成通过使用计算机算法和语音数据库来生成人类般的语音。语音合成可以用于语音导航、机器人语音交互、语音识别等应用。现代语音合成技术已经取得了巨大的进展,并且在不断提高语音质量方面也取得了显著的成果。比如大家在各个小视频里听到的合成声音,已经比原来要真实很多了。4 对话生成回答各种问题,并生成相关的文本内容。对话生成技术在客服、智能助手、帮助中心等领域有着广泛的应用。5语言翻译chatgpt就是个语言模型,因此翻译是它的强项,很多博主做过测评,而且官网也有介绍,这个功能是文学、外交、科技等领域的重要工具,也是现代国际化日益增长的需求。感兴趣的朋友可以参考如下文章查看具体的应用示例,可以试用chatGPT3.5,增加深入的了解 :https://www.yuque.com/lingganjiao/obgqg7/eofegz1fy7lmlkes总之,我们可以看到AI对互联网的影响有多大。
3.2 谁的危机?商机就在哪里!
从chatgpt的崛起之路,我们可以预见到Sora将对传统影视公司、虚拟拍摄公司、特效制作和视频广告等领域带来前所未有的挑战,这种挑战几乎是颠覆性的。想象一下,以往那些需要大量人工拍摄和剪辑的空镜头,现在只需Sora和一段文字,便能轻松搞定。对于那些制作场面宏大的战争剧或历史剧来说,以往为了营造恢弘气势,往往需要大量的群演。但现在呢?有了Sora,或许群演将成为过去式,那么这些人的饭碗岂不是要受到影响?再来说**说剪辑师。**很多人每天的工作就是在各大视频网站找素材,然后按照要求剪辑。但有了Sora,这一切都变得如此简单,只需输入文字,便可自动生成视频,那么剪辑师的工作是不是也要变得多余了呢?再比如小说推文博主,以前他们需要四处找视频素材,但现在,只需输入小说剧情,Sora就能为他们生成相应的视频。说不定,小说作者自己就能轻松生成短剧了。当然,每个变革都会带来不同的声音。有人可能会对此感到不安,但也有人会热烈欢迎。一些做非个人IP类自媒体博主。比如宠物博主用AI生成猫猫图,然后拼接出一个剧情。比如,猫猫打工、狗狗点外卖、猫猫偷鱼、鹦鹉送外卖、猫猫谈恋爱等。猫、够、鹦鹉不是真的,情节是虚构的,图片素材是假的,只有变现是真的。以前,做一篇内容,他需要生成10~15张图,才能变成一个连贯的剧情。如果有了sora,他就不用这么费事了,只需要一段文字,直接生成视频,剧情还更连贯,跟看动画片似的。说不定还能把自己的猫猫,变成像‘熊出没’一样的IP。如果有了sora,这些都用不上了。小说剧情一输,视频剧情就出来了。说不定,小说作者自己就能生成短剧了。
所以,Sora的出现,无疑为整个影视行业带来了全新的变革。它让我们看到了技术的力量,也让我们思考,在这个变革的时代,我们应该如何适应和把握机遇。
每每次新技术的浪潮席卷而来,总会伴随着短暂的混乱与不安,仿佛整个社会都在经历一场未知的震荡。而这次,AI技术的迅猛发展,更是直接触及了无数打工人的敏感神经。企业追求的降本增效,似乎将我们推向了边缘,而AI则成为了他们眼中的“增效”利器。然而,我们真的只能被动接受这一切吗?面对这样的变革,我们是否只能感到恐慌、抵触,甚至愤怒?答案显然是否定的。我们不应沉溺于无用的情绪宣泄,更不应试图去干预那些我们无法控制的事物。这样做只会让我们陷入无尽的痛苦与挣扎。与其在抱怨与不满中度过,不如主动拥抱这个新时代,发掘并发挥我们作为人类的独特优势。在这个充满变革的时代,我们需要更加明智地看待AI技术的发展。它并不是我们的敌人,而是我们前进道路上的伙伴。在与AI打交道一年后,我给自己了3条策略:
1、拥抱AI,关注AI发展,勇敢迎接变革
现在,AI的发展正处于一个风起云涌的混战期,市面上的工具多得让人眼花缭乱。尽管AI无疑是未来的必备技能,但我必须提醒你,不要盲目跟风购买各种课程。例如,最近备受争议的某位美术博士的AI课,就引发了广泛的争议和批评。对于大多数普通人来说,现在最重要的是密切关注AI的发展动态,深入了解AI的应用领域。一旦你找到了与自己相关的部分,再投入时间和金钱去深入学习也不迟。如果你对AI还一知半解,不清楚市面上有哪些热门的AI工具,更不知道它们能为你解决什么问题,那么我强烈建议你参加知乎知学堂的这场AI扫盲课。只需2小时,仅需1毛钱,你就能全面了解当前AI的发展状况,以及各类工具的实际应用。课程将涵盖9大办公场景,介绍20+主流AI工具,无论你是需要写作、设计还是制作PPT,都能找到合适的工具。在全面了解了AI的全局之后,你再根据自己的需求决定是否要深入学习。这是一场千载难逢的机会,让你站在AI浪潮的前沿,不被时代淘汰。点击下方,立即开启你的AI学习之旅!记得添加工作人员,听完直播还有超值大礼包等你来领!↓↓↓AI工具提效训练营🔥送工具精选+prompt设计指南仅需0.1元
2、融合AI,多读书多思考,激发创造力
AI的创造力,虽然依托于海量的资料库,似乎拥有无限的创意可能,但其本质上仍然是基于已有的数据和信息进行组合和演绎。这意味着,尽管AI能够模仿和学习,但它的创意始终是有迹可循的,受限于其训练数据和算法逻辑。而人类的创造力,却是源自内心深处最微妙、最难以捉摸的瞬间灵感。我们的大脑是一个充满奇思妙想的神奇世界,能够产生突如其来、无章可循的创意和想法。这些灵感和创意,往往是我们独特个性、丰富经验和深厚情感的体现,是AI难以企及的。以我这篇文章为例,即使我将之前写过的所有文章都提供给AI学习,让它尝试模仿我的风格创作一篇新的文章,它也很难完全捕捉到我独特的文风和我文章中那些生动鲜活的案例。因为,我的大脑是一个充满无限可能的创意工厂,随时都能迸发出新的灵感和想法。因此,我们无需过分担心被AI取代。相反,我们应该珍惜和发掘自己的创造力,多读书、多学习、多思考,不断激发大脑的潜力。只要我们保持对创作的热情和好奇心,就能在这个充满变革的时代中,创造出属于自己的独特价值和意义。