何恺明再次开宗立派!开导了生成模子的全新范式——
分形生成模子 Fractal Generative Models,初度使逐像素生成高差异率图像成为可能,论文名字依旧继续以往的正途至简格调。
团队将生成模子本人空洞为可复用的"原子模块" 。
通过递归地在生成模子中调用这些原子生成模块,不错构建出一种自相同的分形架构。
其灵感源于数学中的分形念念想。它非常于一个卤莽或破碎的几何局面分红数个部分,每一部分王人(至少肖似地)是合座减弱后的局面。即具有自相同的性质。
嗯,等于像俄罗斯套娃(Matryoshka)那时势。
By the way,「俄罗斯套娃」这个词如故被其他论文用过了,sad。
团队提倡用参数化的神经汇注行为分形生成器,从数据中学习这种递归法例,结束对高维非序列数据的建模,也可用于材料、卵白质等。
适度在「逐像素图像生成」这一任务中施展出色。
看到这张图,未免让东谈主预见此前
通过对输入图像的就地区块进行隐蔽,然后重建缺失的像素。
这次团队也谄媚 MAE 的效果探索了一些可能性。现在该效果代码已开源。
逐像素生成高差异率图像
如何使用自追溯模子行为分形生成器?
领先沟通到方针是对一大组就地变量的聚拢散播进行建模 ,平直使用单个自追溯模子的打算量令东谈主退缩三舍。
团队接纳的要道战略是"分而治之",将自追溯模子空洞成一个模块化单位。
由于每个级别的生成器王人不错从单个输入生成多个输出,因此分形框架不错在只需要线性数目的递归级别的情况下结束生成输出的指数级增长。
最终,在每个分形级别中,自追溯模子经受来自前一个生成器的输出,将其与相应的图像块衔接,并使用多个 transformer 模块为下一个生成器生成一组输出,渐渐从图像块到像素细化生成流程。
之是以遴荐像素级图像生成这个任务,是由于原始图像数据具有高维度和复杂性,像素之间存在丰富的结构模式和互相依赖计划。
这类高维生成问题任务在逐一元素生成数据,但又与长序列建模不同,通常触及非限定数据,像分子结构、卵白质、生物神经汇注等数据也妥贴这个秉性。
团队以为分型生成模子不仅是一个打算机视觉范例,还能展示分形范例在措置这类高维非限定数据建模问题上的后劲,为其他数据边界的利用提供参考。
不外照旧来望望它在像素级图像上的施展:
领先是直不雅的视觉效果,在 ImageNet 256x256 数据集上,逐像素生成一张图需要 1.29 秒。
测试方针方面,分形模子在 ImageNet 64 × 64 无要求生成上结束了 3.14bits/dim 的负对数似然,特出此前最好的自追溯模子。
在图像质料上,FractalMAR-H 模子达到 6.15 的 FID 和 348.9 的 Inception Score。
更值得温煦的是,分形架构将打算效用提升到传统范例的 4000 倍,逐一像素生成高差异率图像初度成为可能。
团队还探索了将掩码重建与分形生成模子谄媚起来,执行发现也不错准确瞻望被隐蔽的像素。
此外,它不错灵验地从类标签中拿获高等语义,并将其反应在瞻望的像素中,比如终末一列,把猫的脸替换成狗的脸,这些适度阐述了该范例在已知要求下瞻望未知数据的灵验性。
终末附上更多生成适度样本。
何恺明 MIT 天团,一作黎天鸿
这次效果是由 MIT 何恺明团队和谷歌 DeepMind 全华东谈主班底完成,并由谷歌提供 TPU、GPU 资源撑捏。
一作何恺明的学生黎天鸿。
黎天鸿本科毕业于清华叉院姚班,在 MIT 赢得了硕博学位之后,现在在何恺明组内从事博士后估量。
他的主要估量方针是表征学习、生成模子以及两者之间的协同作用。方针是构建八成领会东谈主类感知除外的寰宇的智能视觉系统。
此前曾行为一作和何恺明建造了自要求图像生成框架 RCG,团队最新的多项估量中他也王人有参与。
Qinyi Sun,现在 MIT 三年岁本科生。
范丽杰,清华打算机系学友,昨年博士毕业于 MIT CSAIL,现在在谷歌 DeepMind 担任估量科学家,勉力于生成模子和合成数据。
此前曾与黎天鸿共同参与过 FLUID 的估量——
一个可扩张的自追溯文本转图像模子,无需 VQ。10B 参数模子结束 SOTA 性能。
论文地址:
https://arxiv.org/abs/2502.17437v1亚博体育(中国)官方网站
Powered by 亚博买球app-新版 @2013-2022 RSS地图 HTML地图
Powered by365建站