2023-03-04 18:19:59 来源:IT之家 阅读量:14317
微软亚研院发布了仅 16 亿参数的多模态大型语言模型 KOSMOS-1,不仅能看图回答,还搞定了瑞文智商测试。
大模型的卷,已经不睡觉都赶不上进度了......
这不,微软亚研院刚刚发布了一个多模态大型语言模型—— KOSMOS-1。
论文题目 Language Is Not All You Need,还得源于一句名言。
文中有这么一句话,「我语言的局限,就是我世界的局限。—— 奥地利哲学家 Ludwig Wittgenstein」
那么问题来了......
拿着图问 KOSMOS-1「是鸭还是兔」能搞明白吗?这张有 100 多年历史的梗图硬是把谷歌 AI 整不会了。
1899 年,美国心理学家 Joseph Jastrow 首次使用「鸭兔图」来表明感知不仅是人们所看到的,而且是一种心理活动。
现在,KOSMOS-1 便能将这种感知和语言模型相结合。
-图中是什么?
-像一只鸭子。
-如果不是鸭子,那是什么?
-看起来更像兔子。
-为什么?
-它有兔子的耳朵。
这么一问,KOSMOS-1 真有点像微软版的 ChatGPT 了。
不仅如此,Kosmos-1 还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉 QA。
甚至 IQ 测试也不在话下。
「宇宙」无所不能
据论文介绍,最新 Kosmos-1 模型是一个多模态大型语言模型。
其主干是一个基于 Transformer 的因果语言模型,除了文本之外,其他模态,如视觉、音频都可以嵌入模型。
Transformer 解码器用作多模态输入的通用接口,因此它能感知一般模态,进行上下文学习,并遵循指令。
Kosmos-1 在语言和多模态任务上取得了令人印象深刻的表现,无需进行微调,其中包括带有文字指示的图像识别、视觉问答和多模态对话。
如下是 Kosmos-1 生成一些例子式样。
那么,Kosmos-1 是在哪些数据集上进行预训练的呢?
训练所用的数据库,包括文本语料库、图像-字幕对、图像和文本交叉数据集。
文本语料库取自 The Pile 和 Common Crawl;
数据库有了,接下来就是对模型进行预训练了。
MLLM 组件有 24 层、2,048 个隐藏维度、8,192 个 FFN 和 32 个注意力头头,产生了大约 1.3B 的参数。
为了保证优化的稳定性,采用 Magneto 初始化;为了更快地收敛,图像表示是从一个预先训练好的具有 1024 个特征维度的 CLIP ViT-L / 14 模型获取的。在训练过程中,图像被预处理成 224×224 分辨率,CLIP 模型的参数除了最后一层均被冻结。
KOSMOS-1 的参数总量约为 16 亿。
为了使 KOSMOS-1 更好地与指令保持一致,对其进行了只用语言的指令调整 ,即用指令数据继续训练模型,该指令数据是仅有的语言数据,与训练语料库混合。
该调优过程是按照语言建模的方式进行的,选取的指令数据集为 Unnatural Instructions 和 FLANv2 (LHV+23)。
结果显示,指令跟随能力的提高可以跨模式转移。
总之,MLLM 可以从跨模态迁移中获益,将知识从语言迁移到多模态,反之亦然;
5 大类 10 个任务,都拿捏了
一个模型好不好使,拿出来溜溜就知道了。
研究团队从多角度进行实验来评价 KOSMOS-1 的性能,包括 5 大类十项任务:
1 语言任务
2 多模态转移
3 非语言推理
4 感知-语言任务
5 视觉任务
无 OCR 的文本分类
这是一种不依赖于光学字符识别的专注于文本和图像的理解任务。
KOSMOS-1 对 HatefulMemes 和对 Rendered SST-2 测试集的准确率均高于优于其他模型。
而且 Flamingo 明确提供 OCR 文本到提示中,KOSMOS-1 并没有访问任何外部工具或资源,这展示了 KOSMOS-1 阅读和理解渲染的图像中的文本的内在能力。
IQ 测试
瑞文智力测试是评估非语言的最常用测试之一。
KOSMOS-1 在没有进行微调时准确率比随机选择提高了 5.3%,经过微调后则提高了 9.3%,表明其具有感知非语言环境中的抽象概念模式的能力。
这是首次有模型能够完成零样本 Raven 测试,证明了 MLLMs 通过将感知与语言模型结合起来进行零样本非言语推理的潜力。
图像说明
KOSMOS-1 在 COCO 和 Flickr30k 测试中的零样本性能均表现优秀,相比其他模型,其得分更高,但采用的参数量更小。
在少样本性能测试中,得分随着 k 值增大有所增加。
零样本图像分类
给定一个输入图像,并将该图像与提示 「The photo of the」连接起来。然后,输入模型以获得图像的类别名称。
通过在 ImageNet 上评估该模型,在有约束和无约束的条件下,KOSMOS-1 的图像归类效果都明显优于 GIT (WYH+22),展现了完成视觉任务的强大能力。
常识推理
视觉常识推理任务要求模型理解现实世界中日常物体的属性,如颜色、大小和形状,这些任务是具有挑战性的,因为它们可能需要比文本中更多的关于物体属性的信息。
结果显示,KOSMOS-1 在尺寸和颜色方面的推理能力都明显好于 LLM 模型。这主要是因为 KOSMOS-1 具备多模态迁移能力,从而能够将视觉知识运用到语言任务中,而不必像 LLM 那样必须依靠文本知识和线索来推理。
对于微软 Kosmos-1,网友称赞道,未来 5 年,我可以看到一个高级机器人浏览网络,并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。
参考资料:
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
大北农发布公告,公司控股及参股公司生猪销售数量当月合计为49.81万头,1-9月累计为416.05万头;销售收入当月合计为8.86亿元,1-9月累计为67.71...
格隆汇10月8日丨立华股份公布,2023年9月销售肉鸡4206.19万只,销售收入13.20亿元,毛鸡销售均价15.38元/公斤,环比变动分别为2.36%、5....
格隆汇10月8日丨汇宇制药公布,公司全资子公司SeacrossPharmaceuticalsLtd.于近日收到巴基斯坦药品管理局(简称“巴基斯坦药监局”)核准签...
今天是10月8日,各大金店黄金价格涨势暂歇,均价格不变,与昨日一致,还是很高。目前,金价最高的金店为周六福,不涨不跌,报价588元/克。而金价最低的金店为菜百,...
10月7日,安徽省省直住房公积金管理分中心发布《关于进一步优化住房公积金使用政策的通知》。《通知》包括住房公积金贷款、住房公积金提取等两大方面,政策自2023年...
目前,小米已经成为全球前三的智能手机厂商。该公司生产入门级、中端和旗舰智能手机,迎合广泛的用户群。但是对于小米而言,他们还需要更多的用户。近日,手机中国注意到,...
转自:经济日报 e公司讯,沪深交易所近日分别发布《关于进一步规范股份减持行为有关事项的通知》,对此前证监会发布的“减持新规”监管要求进行了细化,确定了更加...
近日,随着一声机车汽笛长鸣,装载165辆汽车的X8489次中欧班列从西安国际港站缓缓驶出,一路向西开往俄罗斯首都莫斯科。这标志着中欧班列(西安)自2013年开行...
近日,由权威财经新闻媒体《财经》杂志联合科创数据研究中心共同推出国家情怀mdash;2023科创板四周年系列评选,皖仪科技(688600)获得评委的一致认可,荣...
券商行业自2015年牛市后就一直有着牛市旗手的称号,然而回头来看,券商板块的每次异动已经逐渐不能预期指数的上涨行情。 随着指数波动下降,以及投资需求的日益增加...
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 中秋国庆假期国内出行旅游市场恢复,9月PMI重返扩张区间 主要内容 国内市场...
据中国工业经济联合会消息,由国家制造强国建设战略咨询委员会指导,中国工业经济联合会联合十大全国性行业联合会(协会)、国际组织、研究机构、主流媒体等共同主办的20...
美国劳工部6日发布数据称,美国9月份非农业部门新增就业33.6万人,失业率环比持平,仍维持在3.8%。 这一数据创造了自今年2月以来的最高值。在美联储明确...
记者10月7日自辽宁省贸促会获悉,2023中国·沈阳国际汽车展览会(以下简称“沈阳十一国际车展”)6日落下帷幕。在为期六天的车展期间,现场人潮不断,展会共产生订...
时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...
找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...
#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...
新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...
专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...