谷歌研究人员最近推出了Synth2,这是一种使用合成图像-文本对训练视觉语言模型的新方法。这项新技术增强了 LLM 和文本到图像生成的功能,同时解决了手动图像标记的局限性。
这种方法解决了人们没有足够的数据标记的问题。它使用 LLM 生成标题,并使用文本到图像模型来合成相应的图像。
谷歌研究人员在改进 VLM 性能、数据效率以及定制和可扩展性方面展示了几项重要发现。
例如,与专门在人工注释数据上训练的基线相比,在其合成和人工注释数据集上训练的视觉语言模型在图像字幕任务方面显示出显着改进。
“这凸显了我们的方法在有效增强VLM能力方面的潜力。这在数据采集和注释资源密集型的情况下非常有利,“研究人员说。
此外,这种新方法在仅利用一小部分人工标记数据的情况下产生了可比的性能,从而提高了数据效率。
事实证明,这种方法在为特定领域定制生成图像数据集方面是灵活的。合成数据生成也是可扩展的,以支持大规模VLM开发。