Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩


stable diffusion背后公司stability ai又上新了。

这次带来的是图生3D方面的新进展:

基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD)是Stability AI之前发布的一个用于生成高分辨率视频的模型。SV3D的问世标志着视频扩散模型首次被成功运用到3D生成领域。

官方表示,基于此,SV3D大大提高了3D生成的质量和视图一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

模型权重依然开源,不过仅可用于非商业用途,想要商用的话还得买个Stability AI会员~

话不多说,还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型,SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D:

  • SV3D_u:基于单张图像生成轨道视频。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p:扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

研究人员还改进了3D优化技术:采用由粗到细的训练策略,优化NeRF和DMTet网格来生成3D对象。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

他们还设计了一种名为掩码得分蒸馏采样(SDS)的特殊损失函数,通过优化在训练数据中不直接可见的区域,来提高生成3D模型的质量和一致性。

同时,SV3D引入了一个基于球面高斯的照明模型,用于分离光照效果和纹理,在保持纹理清晰度的同时有效减少了内置照明问题。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

具体到架构方面,SV3D包含以下关键组成部分:

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation
  • UNet:SV3D是在SVD的基础上构建的,包含一个多层UNet,其中每一层都有一系列残差块(包括3D卷积层)和两个分别处理空间和时间信息的Transformer模块。
  • 条件输入:输入图像通过VAE编码器嵌入到潜在空间中,会和噪声潜在状态合并,一起输入到UNet中;输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
  • 相机轨迹编码:SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中,相机以规律间隔的方位角围绕对象;动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中,转换为正弦位置嵌入,然后这些嵌入信息会被整合并进行线性变换,加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入,提升模型处理图像的能力。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

此外,SV3D在生成过程中采用CFG(无分类器引导)来控制生成的清晰度,特别是在生成轨道的最后几帧时,采用三角形CFG缩放来避免过度锐化。

研究人员在Obj*erse数据集上训练SV3D,图像分辨率为575×576,视场角为33.8度。论文透露,所有三种模型(SV3D_u,SV3D_c,SV3D_p)在4个节点上训练了6天左右,每个节点配备8个80GB的A100 GPU。

实验结果

在新视角合成(NVS)和3D重建方面,SV3D超过了现有其他方法,达到SOTA。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

从定性比较的结果来看,SV3D生成的多视角试图,细节更丰富,更接近与原始输入图像。也就是说,SV3D在理解和重构物体的3D结构方面,能够更准确地捕捉到细节,并保持视角变换时的一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

这样的成果,引发了不少网友的感慨:

可以想象,在未来6-12个月内,3D生成技术将会被用到游戏和视频项目中。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

评论区也总少不了一些大胆的想法……

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

并且项目开源嘛,已经有第一波小伙伴玩上了,在4090上就能跑起来。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

参考链接:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

以上就是Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩的详细内容,更多请关注其它相关文章!


# 太多  # 湖南网站优化在哪里  # 汽车营销推广资讯稿件怎么写  # 大庆建设局网站迁址  # 漫画站seo  # 抖音SEO家具  # 三门峡标准营销推广  # 医疗营销推广 知乎  # 场景营销冰箱推广方案及策略  # 竞价推广和营销推广一样吗  # 小红书seo长期  # 腾讯  # 就能  # 人工智能  # 键值  # 丰田  # 是在  # 本田  # 方位角  # 上新  # 开源  # stable diffusion  # stable video  # 键值对  # ai开源 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  如何利用物联网技术提高企业生产线智能化水平,提升生产效率  AI技术加速迭代:周鸿祎视角下的大模型战略  工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  生成式AI对云运维的3大挑战  图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响  人工智能在服务优化方面优缺点有哪些  常见的五个人工智能误解  WHEE安装教程  云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营  2025年贵州省青少年机器人竞赛在安举行  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐  智能机器人正在彻底改变客户服务  酒店业将如何受益于人工智能的改变?  配 3D 机器人头像,谷歌展示全新安卓 LOGO  官宣!爱康AI未来之夜三大亮点提前剧透!  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  成功孵化首个大型模型解决方案的重庆人工智能创新中心  亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  严打“黑飞”,无人机检测反制设备护航大运会净空安全  焊接协作机器人或将成为26届埃森展最大看点  零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作  看似低调,实则稳健:字节在AI路上会遇到什么?  如何用Transformer BEV克服自动驾驶的极端情况?  定义人工智能的十个关键术语  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色  AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  全球首款AI裸眼3D平板 国产的售价破万  导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发  IBM CEO克里希纳:人工智能潜在创新无法被监管  小米创始人雷军将揭示小米AI在年度演讲中的最新进展  用AI技术点亮老照片:Deep Nostalgia带给照片新生动感  从数据中心到发电站:人工智能对能源使用的影响  网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准  全国体育人工智能大会举办,专家聚焦体育人工智能领域人才培养  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果  2025年深圳举办的SUSECON 创新峰会开始接受报名  生成式AI与云结合,机遇与挑战并存  日本演员工会提出AI立法建议 要求建立“声音肖像权”  华为发布两款AI存储新品 

 2024-03-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.