【多模态学习笔记二】MINIGPT-4论文阅读

MINIGPT-4:ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS

提出的MiniGPT-4使用一个投影层,将冻结的视觉编码器与冻结的先进的LLM Vicuna对齐。我们的工作首次揭示,将视觉特征与先进的大型语言模型正确对齐可以具有GPT-4所展示的许多先进的多模态能力,例如从手绘草稿生成详细的图像描述和创建网站。在我们的实验中,我们发现,在短图像字幕对上训练的模型会产生不自然的语言输出(例如重复和片段化)。为了解决这个问题,我们在第二阶段使用了一个详细的图像描述数据集来微调模型,从而提高了模型的生成可靠性和整体可用性。

在这里插入图片描述
MiniGPT-4添加了一个 single projection layer,将编码的视觉特征与Vicuna语言模型对齐,并冻结所有其他视觉和语言组件。MiniGPT-4最初在4个A100 GPU上使用256的批量大小训练20k步,利用组合图像字幕数据集,其中包括来自LAION、概念字幕和SBU的图像,将视觉特征与Vicuna语言模型对齐。然而,仅仅将视觉特征与语言模型(LLM)对齐不足以确保强大的视觉对话能力,就像聊天机器人一样。原始图像文本对中潜在噪声的存在可能会导致语言输出低于标准。因此,我们收集了另外3500个详细的图像描述对,用设计的对话模板进一步微调模型,以提高生成语言的自然度和可用性。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 14:14:02       169 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 14:14:02       185 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 14:14:02       155 阅读
  4. Python语言-面向对象

    2024-07-20 14:14:02       169 阅读

热门阅读

  1. tmp - configmap动态更新配置?

    2024-07-20 14:14:02       31 阅读
  2. ENSP常见命令及协议命令

    2024-07-20 14:14:02       35 阅读
  3. LeetCode 221. 最大正方形

    2024-07-20 14:14:02       39 阅读
  4. Vue中Key的作用

    2024-07-20 14:14:02       31 阅读
  5. VMware 虚拟机 ping 不通原因排查

    2024-07-20 14:14:02       37 阅读
  6. 数据响应式(Object.defineProperty和Proxy)

    2024-07-20 14:14:02       31 阅读
  7. 云计算的三种服务模式

    2024-07-20 14:14:02       33 阅读
  8. wps的xls文件,如何过滤掉空白没有数据的行

    2024-07-20 14:14:02       32 阅读
  9. Provider(5) - AdjustChannelsBufferProvider

    2024-07-20 14:14:02       29 阅读
  10. lua 游戏架构 之 SceneLoad场景加载(一)

    2024-07-20 14:14:02       38 阅读