Powered by EyouCms">
您好,欢迎您访问无锡创业投资集团有限公司的企业网站!
投资热线:0510-82800752 / 82608712 E-mail:bying@wxvcg.com
当前位置:首页 - 新闻资讯
|欢迎您来到公海欢迎您来到赌船开源模型突破原生多模态大模型性能瓶颈上海AI Lab代季峰团队出品 |
发布者:小编 发布时间:2025-01-14 02:56:09 点击: |
得益于这一架构和预训练策略,Mono-InternVL的视觉可扩展性得到了充分释放◆★★★★■,随着预训练数据规模的增加■◆★,其下游性能持续提高。 如图,模型成功识别出了图中的★◆◆■“诺贝尔物理学奖2024”标题★★◆■■,Hopfield、Hinton等人名,以及瑞典皇家科学院落款等文本。 上海AI Lab代季峰老师团队★■★,提出了全新的原生多模态大模型Mono-InternVL■◆◆★★■。 对于动漫风格的图片,模型识别出了形状扭曲的NEC★■◆★◆、PANASONIC等品牌名,并提供了细致生动的图像描述。 视觉和文本嵌入:与使用CLIP等视觉编码器的模块化 MLLM 相比■■,Mono-InternVL 通过patch embedding直接将图像转换为patch序列。文本嵌入模块则直接使用LLM的分词器◆◆■■◆。 本文为澎湃号作者或机构在澎湃新闻上传并发布★◆■◆◆■,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。 在视觉预训练完成后,Mono-InternVL通过指令微调处理复杂的多模态任务★★◆★。 数据上看◆■★★★,实验结果也表明,1.8B激活参数的Mono-InternVL可以大幅超越此前的7B参数原生多模态模型EVE,平均提升15.5%◆■★■■。 现有的多模态大模型(MLLM)通常采用视觉编码器-对齐模块-语言模型的结构,将视觉编码和语言解码分别进行处理◆■■◆■。 作者可视化了不同层的注意力图,展示了模型浅层部分所存在的视觉局部性◆■■■★■、视觉文本交互较少等问题,为未来原生MLLM 的设计提供启发。 在前两个阶段中保持预训练LLM的参数固定,仅训练视觉部分的嵌入模块和视觉FFN,而在第三阶段和指令微调中逐步放开LLM中的multi-head attention和文本FFN。 最近新兴的Chameleon■◆★■◆、EVE等原生MLLM,将视觉感知和多模态理解直接集成到一个LLM中★■◆,可以更方便地通过现有工具进行部署◆■、具备更高的推理效率★■■★★★。 具体来说◆◆,这些模型通常通过将预训练的视觉编码器(例如CLIP)与大语言模型(LLM)结合来实现◆■◆■■,即模块化MLLM◆■◆■■■。 为此★■★◆★■,Mono-InternVL提出了采用增量预训练的方法,解决此前原生MLLM中的灾难性遗忘问题■★◆◆◆。 EViP被设计为一个从基本视觉概念到复杂语义知识的逐步学习过程■◆★■,包括三个阶段■■: 与非原生模型相比欢迎您来到公海欢迎您来到赌船,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。 然而,由于原生MLLM缺乏视觉能力◆★■■,视觉相关的训练通常不可避免■★◆◆■,但视觉预训练过程中语言基座能力常常出现灾难性遗忘问题,导致现有原生MLLM的性能仍显著低于模块化MLLM★◆■◆★。 作者提出内生视觉预训练(EViP)方法■◆■★,旨在通过在大规模噪声数据和合成数据上进行预训练来最大化Mono-InternVL的视觉能力★★。 因此,作者在预训练的LLM中嵌入了专门服务于视觉建模的视觉专家■◆■■,通过MoE的方式实现稀疏化的建模。 多模态MoE结构:Mono-InternVL 的核心是将视觉专家FFN嵌入到预训练的 LLM 中。视觉FFN从预训练LLM中的文本FFN初始化。由此不仅可以利用预训练的 LLM 知识促进视觉预训练,还能显著缓解灾难性遗忘问题。 本文的通讯作者是朱锡洲,他的研究方向是视觉基础模型和多模态基础模型■◆◆★★◆,代表作有 Deformable DETR、DCN v2等。 兼具视觉灵活性和部署高效性:支持高达2M像素输入的动态图像分辨率,在原生多模态架构中感知精度最高。相比于InternVL1.5,在部署框架上首个单词延迟最多降低67%欢迎您来到公海欢迎您来到赌船◆★★,整体吞吐量提高31%★■◆★◆。 基于此,作者通过仅优化视觉参数空间来进行视觉预训练,同时保留了语言基座的预训练知识。 本文的共同一作为罗根 (上海人工智能实验室博士后研究员)★■★◆■,杨学(上海人工智能实验室青年研究员),窦文涵(清华大学本科生),王肇凯(上海交通大学&上海人工智能实验室联培博士生)★■★◆◆■。 开源原生多模态架构最优解:无需额外的视觉编码器◆■★★,通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径★★◆★,2B模型多模态能力优于7B参数的现有原生多模态模型,多个指标超越InternVL1★■★.5。 具体来说,Mono-InternVL 由视觉文本嵌入和多模态MoE结构两部分组成: 与常见的采用CLIP等结构进行视觉编码的模块化多模态大模型不同★■■,Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。 下图展示了中英文OCR、问答◆■★■、图表解析等任务的可视化样例,体现了Mono-InternVL的实际效果。 下游任务性能与预训练数据规模的曲线图表明,在三阶段的EViP的帮助下,Mono-InternVL 的能力随着数据规模增加而不断提升。 |