stability ai开源上新：3d生成引入视频扩散模子，质料无别性up，4090可玩

李麟 2024-03-20 17:27 544

"stability ai开源上新：3d生成引入视频扩散模子，质料无别性up，4090可玩,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩量子位·2024-03-19 16:24关注网友：梦一个手办自由

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展：

基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一张图片就能生成高质量3D网格。

Stable Video Diffusion（SVD）是Stability AI此前推出的高分辨率视频生成模型。也就是说，此番登场的SV3D首次将视频扩散模型应用到了3D生成领域。

官方表示，基于此，SV3D大大提高了3D生成的质量和视图一致性。

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个Stability AI会员~

话不多说，还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型，SV3D的核心目的是利用(Use)视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D：

SV3D_u：基于单张图像生成轨道视频。

SV3D_p：扩展了SV3D_u的功能，可以根据指定的相机路径创建3D模型视频。

研究人员还改进了3D优化技术：采用由粗到细的训练策略，优化NeRF和DMTet网格来生成3D对象。

他们(They)还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区域，来提高生成3D模型的质量和一致性。

同时，SV3D引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

具体到架构方面，SV3D包含以下关键组成部分：

UNet：SV3D是在SVD的基础上构建的，包含一个多层UNet，其中每一层都有一系列残差块（包括3D卷积层）和两个分别处理空间和时间信息的Transformer模块。

条件输入：输入图像通过VAE编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到UNet中；输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。

相机轨迹编码：SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行(Carry Out)线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理图像的能力。

此外，SV3D在生成过程中采用CFG（无分类器引导）来控制生成的清晰度，特别是在生成轨道的最后几帧时，采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D，图像分辨率为575×576，视场角为33.8度。论文透露，所有三种模型（SV3D_u，SV3D_c，SV3D_p）在4个节点上训练了6天左右，每个节点配备8个80GB的A100 GPU。

实验结果(Result)

在新视角合成（NVS）和3D重建方面，SV3D超过了现有其他方法，达到SOTA。

从定性比较的结果(Result)来看，SV3D生成的多视角试图，细节更丰富，更接近与原始输入图像。也就是说，SV3D在理解和重构物体的3D结构方面，能够更准确地捕捉到细节，并保持视角变换时的一致性。

这样的成果，引发了不少网友的感慨：

可以想象，在将来6-12个月内，3D生成技术将会被用到游戏(Game)和视频项目中。

评论区也总少不了一些大胆的想法……

并且项目开源嘛，已经有第一波小伙伴玩上了，在4090上就能跑起来。

如果你也有第一手实测体会，欢迎在评论区分享~

参考链接：

[1]https://twitter.com/StabilityAI/status/1769817136799855098

[2]https://stability.ai/news/introducing-stable-video-3d

[3]https://sv3d.github.io/index.html

本文来自微信公众号“量子位”（ID:QbitAI），作者：鱼羊，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+120

好文章，需要你的鼓励

量子位特邀作者9收藏+11评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章英伟达GTC大会的6个要点：最强芯片、AI机器人和更多技术探索英伟达凌晨打出了王炸，但已做不到通吃AI时代，苹果和谷歌究竟谁更需要谁？3天涨粉2万，女团、影视漫画化，大佬傅盛也在玩英伟达B200打破摩尔定律，老黄顺便公开GPT-4的秘密已故明星(Star)“眨眼动嘴”，一单50元OpenAI“不能说的秘密”被公开了？使用YouTube数据训练模型，获取方式并不光彩黄仁勋甩出最强AI核弹，GPU新架构性能暴涨30倍，首发人形机器人大模型，联手苹果闯MR今早，黄仁勋宣布：最强AI芯片来了最新文章推荐英伟达GTC大会的6个要点：最强芯片、AI机器人和更多技术探索大数据告诉你：到底是谁让天水麻辣烫火爆全网霉霉经济(Economy)学爆火，体验经济(Economy)大行其道？时代的眼泪：前所未有，便利店生意太难做了祖国电影(Movie)出海，只给华人看就可以了吗？侯毅隐于春风里喜茶靠“纸片老公”出圈，二次元的钱都被三次元挣了？我，副业在闲鱼讲理财，月入万元电商生意“围猎”有闲有钱的中老年人群英伟达凌晨打出了王炸，但已做不到通吃

量子位特邀作者

作者有点忙，还没写简介

发表文章2097篇最近内容Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩1小时前英伟达B200打破摩尔定律，老黄顺便公开GPT-4的秘密1小时前百万token上下文窗口也杀不死向量数据库？CPU笑了1小时前阅读更多内容，狠戳这里下一篇皇包车“白牌黑车”在日本(Japan)顶风作案

重走违规老路，皇包车为何这样？

1小时前

热门标签高温中暑夏日大作战法拉利电话兰博基尼标志法拉利跑车兰博基尼huracan朱彤zendesk荔枝蘸酱油暗恋养牛马迭尔东风风光英国(Britain)首相以父之名南京同仁堂同仁堂燕窝埃尔法a级车杨秋护肝片瑞士黄金列车呼伦贝尔自驾游列车杨戈张晓问题意识v8派学车牛初乳关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴