不过这也导致VAE有时候生成的图像比较糊,不如GAN清晰。
前面说的这些部分属于是AE,自编码器,而V指得则是在自编码器基础上添加的正态分布的随机采样,也就是高斯噪声。
这种噪声的添加,使得希望获得的生成器对噪声和干扰比较鲁棒,生成器训练不好的时候,噪声会低一些,生成器逐渐效果很好的时候,噪声又会增加。
本质上和GAN非常类似。
而孟繁岐想要提出的扩散模型,则是VAE的一种升级版本,同样的,也是GAN的一种升级版本。
它集合了两家之长,取其精华去其糟粕。
“变分自编码器有一个核心的问题,就是这个变分后验p(X|Z)表达能力和计算代价鱼和熊掌不可兼得。变分方法如果简单,表达能力就不丰富;而复杂的变分计算,计算损耗又太大了。”
这章没有结束,请点击下一页继续阅读!
“我觉得,最大的问题还是在这个变分后验。在VAE中,我们先定义了生成器G,使得X=G(Z),然后再学一个变分后验p(X|Z)来适配这个生成器。有没有可能把这个过程反一下,先定义一个变分后验p再学一个生成器G呢?”
“反过来?”
辛顿师徒听了之后,都楞了半晌。
“反过来的话,你是想用简单的变分后验将数据样本映射到标准高斯分布,然后学一个生成器,模仿这个映射?”
“emmm...这种方式的确搜索空间可以大不少,效率可能会很高。听起来还不错,但我不确定它是否好用。”
这种新的方式,里面涉及到的原理和数学推理论证,稍一估算就不少,说不定纯推理论证就能发出好几篇论文来。
“我想借助马尔科夫链的平稳性,让概率分布趋于某种平稳分布,逐渐逼近。”
孟繁岐解释道。
辛顿分析道:“这个逐渐逼近的过程,其实还是加噪声呗,还是随机在采样。一步步前向,一步步加入噪声。”
“对,噪声就像是在马尔科夫链演化的过程当中,逐渐溶解扩散,在这个体系中逐渐地分布均匀,我叫它扩散模型。”
噪声加入模型中,先是在局部比较浓郁,而后随着逐渐一步步迭代的过程均匀扩散开来。
就像是一滴滴墨水滴入清水当中,然后缓缓搅拌均匀,这便是扩散模型名字的由来。
假设清水是我们需要的东西,前向就是清水加墨的过程,而反向则是从墨水生成清水的过程,模型学到了如何过滤噪声。
通过大量的前向学习之后,扩散模型就有了从噪声图凭空优化直至一张优美图片的能力,也就可以去完成各种制图工作了。
“听起来很有潜力,不过为什么高斯分布的马尔科夫链,会对生成器模仿某一个映射有帮助呢?这个问题还需要后面我们仔细讨论一下。”
辛顿只是想了一会,就觉得这个方法应该会好用,但是却一时间想不明白原理和为什么。
今天毕竟还是孟繁岐文章登陆自然封面的庆祝聚会,几人虽然好奇,但也不至于当场就开始研究。
并且,扩散模型距离后来大家使用的出图技术稳定扩散模型还差了好几个组件呢,轮子还缺了几个,因而孟繁岐也不着急此事。
“其实现在最缺的还是数据,各个领域都比较缺,不过谷歌这边已经开始用验证码数据标注了,一些比较常见的方向应该很快会有进展。”
伊利亚笑着说道。
自从进入人工智能时代,各种网页上的验证码就变得离奇了许多。
最开始还只是识别字母,做做加减法之类的。
现在招式就多起来了,给图片分类的;九宫格十二宫格,让你选择有路牌有车的;甚至还有让你仔细勾选某种物体轮廓的,简直离谱!
而自2012年起,谷歌就已经开始把偷偷把谷歌街景中最难以识别的门牌和路牌加入进了验证码,请用户帮忙标注。
看似在区分机器人,实际上在做义务劳动!