您的位置:首页 >> 行业研究 >> 文章正文

计算机行业周报:智谱清影推动视频生成大模型普及

加入日期:2024-8-1 16:43:13

  顶尖财经网(www.58188.com)2024-8-1 16:43:13讯:

(以下内容从德邦证券《计算机行业周报:智谱清影推动视频生成大模型普及》研报附件原文摘录)
投资要点:
智谱AI版Sora清影发布,人人可用、半分钟快速创作视频的时代已来。7月26日,智谱AI旗下“智谱清言”APP正式上线了AI视频生成功能“清影”,向所有用户全量上线,无需预约,人人可用。清影理论上仅需30秒即可完成6秒1440×960清晰度高精度视频的生成,展现出亮眼的推理速度,不仅具备高效的指令遵循能力,还具有内容的连贯性和调度灵活性,而可灵AI生成5秒视频一般耗时2-5分钟。清影同时支持文生视频与图生视频,视频风格覆盖卡通3D、黑白、油画、电影感等,并可配上音乐,生成更为灵动有质感的视频画面。此外,清影API也同步上线大模型开放平台bigmodel.cn,企业和开发者可通过调用API的方式体验视频生成模型能力,推动多模态大模型普及。
清影再次验证Scaling Law在视频生成领域的能力,对齐多模态朝AGI迈进。清影底座的视频生成模型是CogVideoX,并非完全照搬DiT架构,更注重视频与其他模态的对齐融合。具体而言,清影采用将文本、时间和空间三个维度全部融合的transformer架构,摒弃了传统的交叉注意力模块,而是在输入阶段就将文本embedding和视频embedding结合起来,以便充分交互两种模态。其中,注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们不仅增加了建模难度,同时无法与现有的高效训练框架适配;在内容连贯性上,智谱AI自研3D VAE,将原视频空间压缩至2%大小,配合位置编码模块3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖;在指令跟随上,智谱AI自研端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,从而能够更充分理解和执行用户给出的指令。
国内外类Sora纷纷袭来,下游多模态应用爆发正在蓄能。根据APPSO微信公众号统计,自Sora发布以来,已有不下10家公司推出了AI视频新产品或大更新,在几个月内,AI视频生成在物理模拟、运动流畅度、对提示词理解方面都有大幅的提升。这段时间,快手可灵AI在全球开放内测;PixVerse发布了V2版本,支持一键生成1-5段连续的视频内容;Runway Gen3Alpha开启付费用户公测,细节的精致度和丝滑程度上均有提升;电影级视频生成模型Dream Machine,更新了首尾帧功能。视频生成模型已具备一定生产能力,各厂商通过低价或会员等机制努力吸引创作者,为下游多模态应用的爆发蓄能。以清影为例,文生视频、图生视频可灵活应用之广告制作、剧情创作、短视频创作等领域。国内首部AIGC奇观剧《山海奇镜之劈波斩浪》,十余人的创作团队取代传统百人规模,大大缩短制作周期和成本,验证多模态大模型下游应用的前景。
投资建议。智谱清影人人可用的理念有望加速多模态大模型的普及,激发多模态应用创新活力,同时清影落地也离不开地方算力的支持。建议关注AI多模态:万兴科技虹软科技当虹科技中科创达大华股份海康威视漫步者、萤石网络、汉仪股份、美图公司、云从科技;AI算力:云赛智联思特奇恒为科技、海光信息、寒武纪景嘉微工业富联拓维信息浪潮信息四川长虹神州数码;AI+办公:金山办公万兴科技福昕软件彩讯股份、金蝶国际、泛微网络致远互联鼎捷软件汉得信息用友网络;AI+教育/电商/医疗:科大讯飞佳发教育鸥玛软件盛通股份值得买焦点科技小商品城润达医疗嘉和美康创业慧康等。
风险提示:技术发展不及预期,商业模式不成熟、AI伦理风险等。





fund

编辑: 来源: