Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞

前沿科技 3年前 (2022) 虚像

4 0 0

免费开源的 Stable Diffusion 太火了！

有人拿它来做视频短片，几分钟内穿越时间看遍地球万物的演变。

还有人拿它来制作守望先锋里的英雄。

Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞

甚至因为使用过于泛滥，牵涉到艺术版权的问题，一群艺术家们还吵了起来，并把一个非官方账号举报到封号。

这背后究竟是如何运作的，才能形成如此惊人的反响？

这几天，有位小哥分享了 Stable Diffusion 工作机制的线程，还被 LeCun 点了赞。

来看看究竟说了啥。

又是扩散模型

首先，从名字Stable Diffusion就可以看出，这个主要采用的扩散模型（Diffusion Model）。

简单来说，扩散模型就是去噪自编码器的连续应用，逐步生成图像的过程。

一般所言的扩散，是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反——将噪声生成高清图像。训练的神经网络通常为 U-net。

不过因为模型是直接在像素空间运行，导致扩散模型的训练、计算成本十分昂贵。

基于这样的背景下，Stable Diffusion 主要分两步进行。

首先，使用编码器将图像 x 压缩为较低维的潜在空间表示 z（x）。

其中上下文（Context）y，即输入的文本提示，用来指导 x 的去噪。

它与时间步长 t 一起，以简单连接和交叉两种方式，注入到潜在空间表示中去。

随后在 z（x）基础上进行扩散与去噪。换言之，就是模型并不直接在图像上进行计算，从而减少了训练时间、效果更好。

值得一提的是，Stable DIffusion 的上下文机制非常灵活，y 不光可以是图像标签，就是蒙版图像、场景分割、空间布局，也能够相应完成。

霸占 GitHub 热榜第一

这个平台一开源，就始终霸占 GitHub 热榜第一，目前已累计 2.9k 星。

它是由慕尼黑大学机器视觉与学习研究小组和 Runway 的研究人员，基于 CVPR2022 的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》，并与其他社区团队合作开发的一款开源模型。

据官方介绍，它能在几秒内在消费级 CPU 上运行创作，也无需进行任何预处理和后处理。

核心数据集是 LAION-5B 的一个子集，它是专为基于 CLIP 的新模型而创建。

同时，它也是首个在 4000 个 A100 Ezra-1 AI 超大集群上进行训练的文本转图像模型。

不管怎么说，在文本生成图像这一趴，又多了一位实力强劲的明星了。（狗头）

原文地址：http://www.myzaker.com/article/630ef8008e9f094ab6086cdf

开源指导明星

版权声明：虚像发表于 2022年8月31日 pm5:36。
转载请注明：Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞 | 快导航网

Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞

成本大减！三星Galaxy S23/S23+外观依旧：仅处理器升级

腾讯旗下游戏公司与索尼互娱入股“魂系列”开发商FromSoftware

相关文章

热门文章

最新资讯

热门网址

热门标签

Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞

成本大减！三星Galaxy S23/S23+外观依旧：仅处理器升级

腾讯旗下游戏公司与索尼互娱入股“魂系列”开发商FromSoftware

相关文章

热门文章

最新资讯

热门网址

热门标签

运营相关

软件下载

跨境电商

购物网站

设计相关

行业企业

自媒体相关

网络科技

编程帮手

综合其他

站长助手

知识充能

电商运营

生活服务

榜单排名

服务生活

日常生活

新闻媒体

教育文化

政府组织

探索发现

影视工具

影视基地

工具大全

学术资源

学习教育

娱乐生活

发现资源

医疗健康

兴趣爱好

元宇宙

体育健身

休闲娱乐

交通旅游

NFT概念

ACG