谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA
日期:2025-05-19 10:30:25 / 人气:3
"BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
多模态模型卷到头了?不,真正的革新才刚开始。
就在最近,Salesforce Research携手UMD、VT、NYU、UW等机构的研究人员,发布了一组完全开源的统一多模态模型BLIP3-o。
BLIP3-o采用「先理解后生成」训练策略,实现了图像理解与生成的有效统一,并基于GPT-4o构建了BLIP3o-60k数据集。
论文地址:https://arxiv.org/abs/2505.09568
BLIP3-o的架构包括两部分,理解部分使用CLIP对图像进行编码;生成部分,自回归模型生成中间视觉特征,作为DiT的输入,采用CLIP+Flow Matching策略生成图像特征。
结果显示,BLIP3-o系列在提示对齐和图像美学方面,都有显著的提升。
BLIP3-o 8B在1024×1024分辨率下的结果
同时,BLIP3-o的Demo体验网站也已上线。
网站地址:https://blip3o.salesforceresearch.ai
具体到这篇论文中,研究团队围绕以下三个关键维度进行了深入探讨:
· 图像表示方式:将图像编码为高层级的语义特征(例如CLIP图像编码器),而不是低层级的像素特征(例如基于VAE的编码器)
· 训练目标函数:使用Flow Matching代替MSE,提升图像生成质量。
· 训练策略:采用顺序训练策略效果最佳,先用图像理解任务训练自回归模型,再在图像生成阶段保持其参数冻结。
统一多模态下的图像生成与理解
OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力,激发了人们对于多模态范式的兴趣。。
关于OpenAI的GPT-4o架构的猜测中,最有可能的一种是采用了一种混合管道结构:
这表明自回归和扩散模型可结合起来。受这种混合设计的启发,研究团队在研究中采用了自回归+扩散框架。
在这种框架下,最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征,用以逼近真实的图像表示,但这带来了两个关键问题:
首先,如何定义「真实」的图像嵌入?应该选择VAE还是CLIP来将图像编码为连续特征?
其次,如何建模和对齐这些生成的视觉特征与真实特征之间的分布?是采用简单的MSE损失,还是使用更复杂的扩散方法?
为了解决这些问题,研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索。
研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入,这在学习效率和生成质量方面起着基础性作用。
图像编码与重建
图像生成通常首先使用编码器将图像编码为连续的潜在嵌入,然后使用解码器从该潜在嵌入中重建图像。这种编码-解码流程可以有效地降低图像生成中输入空间的维度,从而提高训练效率。研究讨论了两种目前广泛使用的方式:
变分自编码器(Variational Autoencoders)
变分自编码器(VAE)是一类生成模型,它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布,而解码器从这个潜在分布中抽取样本重建图像。
潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上。通过在VAE潜在空间中操作,这些模型显著降低了输出空间的维度,从而降低了计算成本并使训练更加高效。
CLIP编码器与扩散解码器(CLIP Encoder with Diffusion Decoder)
CLIP模型已成为图像理解任务的基础编码器,因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。
然而,利用这些特征进行图像生成仍然是一个不小的挑战,因为CLIP最初并不是为重建任务设计的。
针对这个问题,团队通过将基于CLIP的编码器与基于扩散的解码器配对,提出使用EVA-CLIP将图像编码为连续的视觉嵌入,并通过从初始化的扩散模型进行重建。
在训练过程中,扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件,从高斯噪声中恢复原始图像,而EVA-CLIP保持冻结。
这一过程有效地将CLIP和扩散模型结合成一个图像自编码器:CLIP编码器将图像压缩为语义丰富的潜在嵌入,而基于扩散的解码器则从这些嵌入中重建图像。
建模潜在图像表示
在获得连续的图像嵌入后,研究团队使用自回归架构对其进行建模。
给定用户提示(比如「一个戴着草帽的年轻雀斑女子」),研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列
多模态模型卷到头了?不,真正的革新才刚开始。
就在最近,Salesforce Research携手UMD、VT、NYU、UW等机构的研究人员,发布了一组完全开源的统一多模态模型BLIP3-o。

BLIP3-o采用「先理解后生成」训练策略,实现了图像理解与生成的有效统一,并基于GPT-4o构建了BLIP3o-60k数据集。
论文地址:https://arxiv.org/abs/2505.09568
BLIP3-o的架构包括两部分,理解部分使用CLIP对图像进行编码;生成部分,自回归模型生成中间视觉特征,作为DiT的输入,采用CLIP+Flow Matching策略生成图像特征。
结果显示,BLIP3-o系列在提示对齐和图像美学方面,都有显著的提升。
BLIP3-o 8B在1024×1024分辨率下的结果
同时,BLIP3-o的Demo体验网站也已上线。
网站地址:https://blip3o.salesforceresearch.ai
具体到这篇论文中,研究团队围绕以下三个关键维度进行了深入探讨:
· 图像表示方式:将图像编码为高层级的语义特征(例如CLIP图像编码器),而不是低层级的像素特征(例如基于VAE的编码器)
· 训练目标函数:使用Flow Matching代替MSE,提升图像生成质量。
· 训练策略:采用顺序训练策略效果最佳,先用图像理解任务训练自回归模型,再在图像生成阶段保持其参数冻结。
统一多模态下的图像生成与理解
OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力,激发了人们对于多模态范式的兴趣。。
关于OpenAI的GPT-4o架构的猜测中,最有可能的一种是采用了一种混合管道结构:
这表明自回归和扩散模型可结合起来。受这种混合设计的启发,研究团队在研究中采用了自回归+扩散框架。
在这种框架下,最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征,用以逼近真实的图像表示,但这带来了两个关键问题:
首先,如何定义「真实」的图像嵌入?应该选择VAE还是CLIP来将图像编码为连续特征?
其次,如何建模和对齐这些生成的视觉特征与真实特征之间的分布?是采用简单的MSE损失,还是使用更复杂的扩散方法?
为了解决这些问题,研究团队在后续部分中对不同的架构设计、特征表示方式和建模策略进行了系统性探索。
研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入,这在学习效率和生成质量方面起着基础性作用。
图像编码与重建
图像生成通常首先使用编码器将图像编码为连续的潜在嵌入,然后使用解码器从该潜在嵌入中重建图像。这种编码-解码流程可以有效地降低图像生成中输入空间的维度,从而提高训练效率。研究讨论了两种目前广泛使用的方式:
变分自编码器(Variational Autoencoders)
变分自编码器(VAE)是一类生成模型,它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布,而解码器从这个潜在分布中抽取样本重建图像。
潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上。通过在VAE潜在空间中操作,这些模型显著降低了输出空间的维度,从而降低了计算成本并使训练更加高效。
CLIP编码器与扩散解码器(CLIP Encoder with Diffusion Decoder)
CLIP模型已成为图像理解任务的基础编码器,因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。
然而,利用这些特征进行图像生成仍然是一个不小的挑战,因为CLIP最初并不是为重建任务设计的。
针对这个问题,团队通过将基于CLIP的编码器与基于扩散的解码器配对,提出使用EVA-CLIP将图像编码为连续的视觉嵌入,并通过从初始化的扩散模型进行重建。
在训练过程中,扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件,从高斯噪声中恢复原始图像,而EVA-CLIP保持冻结。
这一过程有效地将CLIP和扩散模型结合成一个图像自编码器:CLIP编码器将图像压缩为语义丰富的潜在嵌入,而基于扩散的解码器则从这些嵌入中重建图像。
建模潜在图像表示
在获得连续的图像嵌入后,研究团队使用自回归架构对其进行建模。
给定用户提示(比如「一个戴着草帽的年轻雀斑女子」),研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列
作者:杏鑫娱乐
新闻资讯 News
- 宁德时代港股IPO:千亿募资背后...05-19
- OpenAI Codex Agent正式上线...05-19
- 关于"落差效应"的深度解析与应对...05-19
- 启航二十:五本书引领的青春航程05-19