计算机行业周报：智谱清影推动视频生成大模型普及_行业研究

您的位置：首页 >> 行业研究 >> 文章正文

计算机行业周报：智谱清影推动视频生成大模型普及

加入日期：2024-8-1 16:43:13

　　顶尖财经网(www.58188.com)2024-8-1 16:43:13讯：

（以下内容从德邦证券《计算机行业周报：智谱清影推动视频生成大模型普及》研报附件原文摘录）
投资要点：
智谱AI版Sora清影发布，人人可用、半分钟快速创作视频的时代已来。7月26日，智谱AI旗下“智谱清言”APP正式上线了AI视频生成功能“清影”，向所有用户全量上线，无需预约，人人可用。清影理论上仅需30秒即可完成6秒1440×960清晰度高精度视频的生成，展现出亮眼的推理速度，不仅具备高效的指令遵循能力，还具有内容的连贯性和调度灵活性，而可灵AI生成5秒视频一般耗时2-5分钟。清影同时支持文生视频与图生视频，视频风格覆盖卡通3D、黑白、油画、电影感等，并可配上音乐，生成更为灵动有质感的视频画面。此外，清影API也同步上线大模型开放平台bigmodel.cn，企业和开发者可通过调用API的方式体验视频生成模型能力，推动多模态大模型普及。
清影再次验证Scaling Law在视频生成领域的能力，对齐多模态朝AGI迈进。清影底座的视频生成模型是CogVideoX，并非完全照搬DiT架构，更注重视频与其他模态的对齐融合。具体而言，清影采用将文本、时间和空间三个维度全部融合的transformer架构，摒弃了传统的交叉注意力模块，而是在输入阶段就将文本embedding和视频embedding结合起来，以便充分交互两种模态。其中，注意力模块采用了3D全注意力机制，先前的研究通常使用分离的空间和时间注意力或者分块时空注意力，它们不仅增加了建模难度，同时无法与现有的高效训练框架适配；在内容连贯性上，智谱AI自研3D VAE，将原视频空间压缩至2%大小，配合位置编码模块3D RoPE，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖；在指令跟随上，智谱AI自研端到端视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述，从而能够更充分理解和执行用户给出的指令。
国内外类Sora纷纷袭来，下游多模态应用爆发正在蓄能。根据APPSO微信公众号统计，自Sora发布以来，已有不下10家公司推出了AI视频新产品或大更新，在几个月内，AI视频生成在物理模拟、运动流畅度、对提示词理解方面都有大幅的提升。这段时间，快手可灵AI在全球开放内测；PixVerse发布了V2版本，支持一键生成1-5段连续的视频内容；Runway Gen3Alpha开启付费用户公测，细节的精致度和丝滑程度上均有提升；电影级视频生成模型Dream Machine，更新了首尾帧功能。视频生成模型已具备一定生产能力，各厂商通过低价或会员等机制努力吸引创作者，为下游多模态应用的爆发蓄能。以清影为例，文生视频、图生视频可灵活应用之广告制作、剧情创作、短视频创作等领域。国内首部AIGC奇观剧《山海奇镜之劈波斩浪》，十余人的创作团队取代传统百人规模，大大缩短制作周期和成本，验证多模态大模型下游应用的前景。
投资建议。智谱清影人人可用的理念有望加速多模态大模型的普及，激发多模态应用创新活力，同时清影落地也离不开地方算力的支持。建议关注AI多模态：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技；AI算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码；AI+办公：金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息，用友网络；AI+教育/电商/医疗：科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。
风险提示：技术发展不及预期，商业模式不成熟、AI伦理风险等。

fund

编辑：　来源：