推广 热搜： 百度搜如何做怎么看怎么做知识点什么是新媒体全攻略女明星为什么

多模态大模型MiniGPT4和LLaVA开源（GPT4图文对话平替）；MOSS等模型放出权重

日期：2024-11-10 移动：http://zleialh.tongchengxian.cn/mobile/quote/436.html

本周带来的 8 个 SOTA 模型分别用于多模态对话、对话系统、文本到语音生成、中文医学对话等；1 个工具用于三维视觉重建；1 个数据集用于自然语言处理。

阿卜杜拉国王科技大学开源MiniGPT-4，具备类GPT-4的图像理解与对话能力的多模态大模型

MiniGPT-4 是阿卜杜拉国王科技大学开源的一款多模态大模型，同时具备图像理解与对话能力。它使用 BLIP-2 的冻结视觉编码器和 Vicuna 的冻结 LLM，仅使用一个投影层进行对齐。MiniGPT-4 的训练分为两个阶段。第一阶段是传统的预训练阶段，使用 4 个 A100 GPU，大约 10 小时内训练了大约 500 万个图像和文本对。项目目前已经在 github 开源，提供在线试用，安装环境和模型权重的步骤，可在本地运行 demo，以重新训练。

Stability AI的首个大型语言模型StableLM开源，可轻松实现本地部署

StableLM 是 Stable AI 开源的大型语言模型，该模型一种使用开源数据集 the Pile 进行训练的模型，该数据集包含来源于维基百科、Stack Exchange 和 PubMed 等多个数据源。Stability AI 在 the Pile 的基础上进行扩展，使得所使用的数据集大小达到标准 the Pile 的 3 倍。虽然 StableLM 模型目前仍处于 Alpha 阶段，但其参数数量较少，仅为 30 亿和 70 亿个，未来他们还将推出参数数量为 150 亿到 650 亿的模型。

Suno AI开源基于Transformer的文本到语音模型Bark，可以生成高度逼真、多语种的语音

Bark 是基于 Transformer 的文本到语音模型，可以生成高度逼真、多语种的语音以及其他音频，包括音乐、背景噪声和简单的音效；模型还可以产生笑、叹气和哭泣等非语言交流。目前，

复旦提出的支持中英双语和多种插件的开源对话语言模型MOSS，参数仅有160亿

MOSS 是一个支持中英双语和多种插件的开源对话语言模型，但参数数量比 ChatGPT 少得多。在 v0.0.2 之后，团队持续对其进行调整，推出了 MOSS v0.0.3，也就是目前开源的版本。相比于早期版本，团队构造了约 30 万插件增强的对话数据，包含搜索引擎、文生图、计算器、方程求解等。

微软开源多模态视觉语言大模型LLaVA，多模态对话方面具备GPT4级别的能力

LLaVA 是由微软联合威斯康星麦迪逊分校发布的一个多模态大模型。与 MiniGPT-4 不同的是，该模型将 instruction-tuning 放到了多模态模型上，这是将指令调整扩展到多模态空间的首次尝试。目前项目已在 github 开源其实现代码、数据集、模型微调权重，并提供在线演示 demo。

商汤开源Anything-3D，将SAM扩展到3D领域的视觉应用

Anything-3D 是商汤开源的基于 SAM 的三维视觉应用项目 Anything-3D，让自然图像中的二维物体实现快速的三维重建。通过使用 BLIP、NeRF 等技术与强大的分割模型 SAM 集成，项目实现了可靠且通用的单一视角下的三维重建。

哈工大开源中文医学大型语言模型Huatuo，基于中文医学指令微调

Huatuo 是针对中文医学文本的大型语言模型，项目开源了经过中文医学指令微调的 LLaMA-7B 模型。项目目前已在 github 开源，提供模型权重、详细的数据集构建方法以及本地部署指导。

meta提出完全自监督的视觉大模型DINOv2，在多个下游任务实现最优

DINOv2 是第一个基于图像数据的 SSL 工作，旨在通过在大型图像数据集上预训练图像编码器来获得具有语义的视觉特征。这些特征可以用于广泛的视觉任务，无需微调即可获得与有监督模型相当的性能。

加州大学圣巴巴拉分校开源开放、十亿规模的图像与文本交错语料库Multimodal C4

Multimodal C4 (mmc4) 是一个开放且规模达十亿的图像与文本交错语料库。数据集搭建使用了线性分配算法，并结合了 CLIP 技术，将图像嵌入到较长的文本正文中。语料库涵盖了各种日常话题，如烹饪、旅行、技术等。这个规模庞大的语料库可以用于许多计算机视觉和自然语言处理任务，如图像标注、图像分类、文本分类等。

中国科学技术大学提出基于SAM的多功能图像修复大模型Inpaint Anything

Inpaint Anything（IA）是一种图像修复模型，由来自中国科学技术大学和东方理工高等研究院的研究团队开发。该模型采用了一种新的图像修补范式，称为“修补一切”（Inpaint Anything，简称 IA）模型。该模型不需要精细化操作生成掩码，只需要一键点击，就可以实现移除、填补和替换图像中的任何物体和场景。

网页端访问： 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

本文地址：http://zleialh.tongchengxian.cn/quote/436.html 通成线 http://zleialh.tongchengxian.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

多模态大模型MiniGPT4和LLaVA开源（GPT4图文对话平替）；MOSS等模型放出权重

推荐最新动态

点击排行