女娲|一个模型通杀8大视觉任务,一句话生成图像视频、P图视频处理都行( 二 )


该机制不仅可以降低模型的计算复杂度 , 还能提高生成结果的质量 。
此外 , 模型还使用VQ-GAN替代VQ-VAE进行视觉tokenization , 这也让生成效果好上加好 。
团队介绍
一作Chenfei Wu , 北京邮电大学博士毕业 , 现工作于微软亚研院 。
共同一作Jian Liang ,来自北京大学 。
其余作者包括微软亚研院的高级研究员Lei Ji , 首席研究员Fan Yang , 合作首席科学家Daxin Jiang , 以及北大副教授方跃坚 。
通讯作者为微软亚研院的高级研究员&研究经理段楠 。