轻轻射火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」

自本年 2 月 Sora 面世以来，好多东说念主都期待字节的手脚。领有抖音和剪映这两个最强的视频 App 在手轻轻射，字节的视频生成大模子，被委托厚望。

这就来了。

9 月 24 日，字节越过旗下火山引擎在深圳举办 AI 改造巡展，一举发布了包括「豆包视频生成大模子」「音乐生成大模子」在内的多款模子。

在此之前，海表里不少气象级的同类模子家具接踵发布，包括字节越过接踵发布的即梦、海绵音乐，和剪映（含 CapCut）中的新功能。秘而不宣的海绵音乐 App 更是被视为最符合华文的音乐生成 App、国内当之无愧的「Suno」。

字节为什么选拔在若干有些「AI 家具看麻了」的 9 月，推出这几款 AI App 背后的大模子引擎？

对此，火山引擎总裁谭待向极客公园示意，不是按照某个固定权谋用心设想什么节点发布，AI 模子进展日眉月异，什么时候作念好、符合对外就尽快发布。

这背后的逻辑是，火山引擎的定位是字节越过的 ToB 云平台，模子对企业的怒放由火山引擎来作念，但推落发具前，需要先在里面使用，打磨到一定进度、作念到企业级可用，才会向外推出。此前发布的豆包亦然如斯，先有字节里面推出的家具豆包 App，再有本年 5 月由火山引擎推出企业级可用的豆包大模子。

他补充说：「不一定要抢第一，要推出纯熟的家具，因为模子对畴昔 10 - 20 年影响长久，作念好积贮后来居上亦然功德。」

性感学生妹

而火山引擎畴昔十年要驶向的远处，并不是一个、两个模子比如视频生成模子的率先，而是「成为人人率先的云和 AI 办事商」。

01 抖音和剪映加抓，字节视频生成大模子更存眷使用场景

视频生成大模子，成为整场发布会最大的亮点。

谭待示意，「因为视频止境难，咱们一次性推出两个，充分贬责视频里面的各式问题」。豆包眷属新成员——豆包视频生成 -PixelDance、豆包视频生成 -Seaweed，崇敬面向企业市集开启邀测。

从现场展示来看，豆包视频模子不错字据翰墨和图片的输入，生成相应的视频。值得肃穆的是，字节越过并莫得公布其模子生成视频的最大时长，尽管后者被觉得是体当前刻才略的一大阐扬。

豆包视频生成大模子，更强调其在骨子专揽中、各式生涯和生意场景所需的三个中枢功能点。

来源是模子对复杂教唆的理会撤职。以下图的视频为例，输入「特写⼀个⼥⼈的面部，有些⽣⽓，戴上了⼀副墨镜；这时⼀个男⼈从画⾯右侧⾛进来抱住了她」。

轻轻射

在这个相对复杂的描摹下，豆包模子生成的视频呈现出了一个情面绪的变化、手脚前后时刻的变化，还出现了一个新的东说念主物，这个新的东说念主物跟蓝本的东说念主物也有交互。换言之，豆包视频大模子约略字据教唆收场时序性上有集合的手脚教唆，何况不错生成多个主体，何况让多个主体间进行交互。

豆包视频模子的第二个特色在于运镜，⾖包视频模子让视频在主体的⼤动态与镜头中进行切换，领有变焦、环绕、平摇、缩放、⽬标随从等多镜头语⾔的收场。

生成的视频不错纯真适度视⻆，更接近真实寰宇的体验｜视频来源：字节越过

第三个特色则是⼀致性多镜头。在 AI 生成的视频中，若何保证多镜头来往切时，不同主体在来往切换中的镜头是一致的，这亦然当前行业的共性难点。

豆包在一个 prompt 下生成的视频，不错收场多个镜头切换，同期轻轻射保抓主体、⻛格、氛围的⼀致性。｜来源：字节越过

在谈及豆包视频生成大模子的特色时，谭待示意，豆包视频大模子背后有两方面上风，一是时刻防碍和全栈才略等上风，在时刻上，字节在这两款视频模子上作念了大宗时刻改造，比如通过⾼效的 DiT 交融策画单位、全新设想的扩散模子磨砺⽅法和深度优化后的 Transformer 结构，让总计这个词⽣成视频的手脚更灵动、镜头更万般、细节更丰润。

同期抖音、剪映对视频的理会亦然上风。「剪映对视频的理会、对豆包视频生成模子有匡助，教唆撤职作念得好也离不开言语模子，豆包是全体系模子，底层有基座模子有助于更好地理会教唆。」

在久了到视频场景的贬责决策上，豆包视频模子复古不同题材类型，⽀抓包括⿊⽩、3d 动画、2d 动画、国画、⽔彩、⽔粉等多种⻛格，包含复古 1:1，3:4，4:3，16:9，9:16，21:9 等多个比例，对应于电影、电视、电脑、手机等多个生意场景。

⾖包视频⽣成模子通过总计这个词模子能把商品快速 3D，而且动态多⻆度展⽰，还能配合不同的节日，比如中秋、七夕、春节等节点快速替换配景和⻛格，⽣成不同尺⼨的内容发布到不同平台上，最终符合举座营销的计谋完成。

在更聚焦的场景上，豆包视频模子也推出了更适配的贬责决策，⽐如电商营销场景，不错让用户字据商品生成大宗的配协作销节点的视频素材，何况适配不同媒体平台的不同尺⼨发布。

在视频发布尺度，还有一个彩蛋，火山引擎带来了里面——剪映和即梦若何使用视频⽣成模子的引申案例。从抖音转战剪映 CapCut 的张楠（Kelly）通过数字分身 Kelly 的表情亮相。

在该数字东说念主视频中，Kelly 数字分身的手脚像真东说念主同样当然，口型也不错与列国的不同言语透彻适配。

这个案例也向外界展示了豆包视频大模子在场景上带来的新可能，比如自媒体、口播、营销、带货、企业培训等，无须亲身上阵进行拍摄，内容制作本钱也不错大幅缩小。

据悉，豆包视频模子不是期货，最新模子会在国庆节后上线到火山引擎方舟平台，即梦最新内测版一经使用了豆包视频生成模子 -Seawe。

至于订价问题，谭待示意还没细目。他称「视频模子和言语模子专揽场景不同，订价逻辑也不同。要研讨新体验 - 老体验 - 迁徙本钱，最终能否渊博专揽取决于是否比过去坐褥力 ROI 普及好多。」

02 从「卷」价钱，回到「卷」性能

与视频大模子一同发布的，还有音乐大模子、同声传译大模子，和豆包主力模子的新升级。就像豆包视频模子的扫尾让东说念主目下一亮，上述模子家具也均有亮眼的性能普及。

这一系列新升级也响应了，火山引擎脱手从「卷价钱」到「卷性能」的转念，后者将会成为其下一阶段的计谋重心。会后给与采访时，火山引擎总裁谭待重申了这一态度，他示意：「大模子的专揽本钱一经获取很好贬责。大模子要从卷价钱走向卷性能、卷更好的模子才略和办事」。

早在本年 5 月，火山引擎推出的豆包大模子把价钱降至最低每千 token 低于一厘钱，激励了大模子厂商的价钱战。从那以来，模子厂商的举座模子调用量均出现了大幅普及。

据火山引擎败露，浪漫 9 月，豆包言语模子的日均 tokens 使用量畸形 1.3 万亿，比拟 5 月初次发布时增长超十倍，多模态数据处理量也差异达到每天 5000 万张图片和 85 万小时语音。

尽管如斯，模子性能制肘成为了模子调用量进一步普及的瓶颈，同期亦然契机。谭待例如称，业内多家大模子目前最高仅复古 300K 甚而 100K 的 TPM（每分钟 token 数），难以承载企业坐褥环境流量。例如某科研机构的文件翻译场景，TPM 峰值为 360K，某汽车智能座舱的 TPM 峰值为 420K，某 AI 熏陶公司的 TPM 峰值更是达到 630K。为此，豆包大模子默许复古 800K 的开动 TPM，超行业平均水平，客户还可字据需求纯真扩容。

此前 MiniMax 首创东说念主闫俊杰向极客公园示意，从时刻发展的角度看，模子推理本钱 10 倍、百倍的缩小是势必，仅仅时刻问题，难的是通用模子的性能普及。

在看到从 ChatGPT 到 GPT-4，性能出现了大幅普实时，大模子领域也沿着 OpenAI 在模子预磨砺上作念 Scaling Law，旨在用更多的数据、加更多的算力、普及模子参数目的作念法来普及模子性能。跟着这一皆径的着力缩小、优质数据消耗的担忧，通过这一规范普及性能的旅途堕入瓶颈。

目前，跟着 o1 的出现，大模子在推理阶段引入强化学习的旅途，带来了进一步普及模子性能的明确旅途。

同期，跟着更多企业在 AI 专揽上的探索，也为模子性能的定向普及带来了好多工程调优妙技。更好的模子性能、更好用的模子办事，能力在家具上翻开更多场景，而这也将成为包括火山引擎在内的 AI 基础设施办事商们下一阶段的重心。

栏目分类

热点资讯

近亲乱伦

你的位置：Hongkongdoll leaks > 近亲乱伦 > 轻轻射火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」

轻轻射火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」

相关资讯

栏目分类

热点资讯

近亲乱伦

你的位置：Hongkongdoll leaks > 近亲乱伦 > 轻轻射 火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」

轻轻射 火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」

相关资讯

你的位置：Hongkongdoll leaks > 近亲乱伦 > 轻轻射火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」

轻轻射火山引擎丢出视频大模子「王炸」，云厂商从「价钱战」记忆「卷性能」