苹果300亿参数大模型首亮相，还买了家ai公司

深圳纵横集团有限公司

shenzhen zongheng group co,ltd

快速导航 quick navigation

苹果300亿参数大模型首亮相，还买了家ai公司｜焦点分析

时间：2024-03-17 信息来源：纵横集团
-------------------------------------------

落后竞争对手一大截的苹果，正在加速入局大模型战场。

放弃造车后的苹果，正在加速入局大模型战争。

当地时间3月15日，苹果就披露了两个关键大模型动作。

其中一个值得关注的是苹果的收购事件。彭博社报道称，苹果已经收购了一家加拿大ai初创公司darwinai。

苹果的ai团队一下子扩充了几十个技术人员——作为收购交易的一部分，darwinai的几十名员工都被纳入苹果麾下，darwinai联合创始人、加拿大滑铁卢大学系统设计工程系教授alexander wong加盟苹果，担任ai团队的主管。

此前，darwinai的技术主要在视觉模型方向，他们此前主要给制造业提供零部件视觉检测的ai技术，致力于把ai系统打造得更小型和更快速。这符合此前苹果一直对外说的要打造更小的端侧大模型方向。

“买买买”是苹果布局ai的思路之一，此前苹果已经陆续收购了voysis、curious ai、 ai music、waveone等初创ai公司，来不断扩充自身的ai实力。

践行收购战略的同时，苹果也在不断加大自研技术的力度。被披露收购darwinai的同一时间，苹果低调的在arxiv.org网站上发布论文，官宣了在多模态大模型领域的最新成果。

在论文《mm1: methods, analysis & insights from multimodal llm pre-training》（mm1: 多模式llm预训练的方法、分析和见解）中可以看到，mm1是一个图文的多模态大模型，参数规模有30亿、70亿、300亿三种大小，有图像识别和自然语言推理能力。

其中，参与该论文的作者有30人，一半以上都是华人。

mm1测试效果不如gemini和gpt4v

和市面上其他大模型相比，mm1亮点并不在惊艳的效果上，也没有提出特别的技术路线，而是通过控制各种变量，做实验，找出影响模型效果中关键因素。

在测试中，mm1-30b-chat在textvqa、seed和mmmu上的表现优于emu2-chat37b和cogvlm-30b，但是表现不如谷歌的gemini和openai的gpt4v。

mm1测试效果

苹果做了各种变量实验，通过修改数据源、修改图像分辨率等，来看各种因素对模型效果的影响。

△摘自苹果发布的论文《mm1: methods, analysis & insights from multimodal llm pre-training》

目前，苹果发现让多模态大模型变得更聪明、效果更好的主要因素有：

图像分辨率和图像标记数量对模型性能影响较大，比如更高清的图像，标注的细节越多，模型的效果就更好。
视觉语言连接器对模型的影响较小，视觉语言连接器指的是可以将图像和文本结合起来，进行信息融合的一种技术。论文中也提到，虽然影响不大，但仍然需要选择合适的视觉语言连接器。
不同类型的预训练数据对模型的性能有不同的影响。交错的图像文本数据和文本数据对于提高模型的少样本（few-shot）和零样本（zero-shot）性能至关重要，类似在训练时，需要使用“多样化的教材”可以帮助大模型更好地适应不同类型的问题。
模型的架构和训练过程，包括模型大小和训练超参数的选择，对于模型性能很重要，可以理解为在“建造大模型大楼”的过程中，需要选择“合适的建筑材料”和“施工方法”。

模型架构上，使用了混合专家（mixture of experts, moe）架构是mm1的亮点之一，苹果探索发现，在模型的前馈网络层中使用moe架构，可以有效地扩展模型的容量而不牺牲推理速度。

我们可以将moe架构理解为一个大型的客服中心，其中有许多专门处理不同问题的专家——有的专家专门处理技术问题，有的专家处理账单查询，还有的专家负责解答产品使用问题。在大模型训练过程中，当数据进入模型中后，大模型会像“客服中心”一样，根据问题的性质被分配给最合适的专家来解决。

在实验过程中，苹果采用了一种名为top-2 gating的方法，来做“调度员”，根据图像的内容和文本语义等数据特点，来决定输入数据应该被送往哪些专家处理。在处理数据过程中，苹果还采用了一种叫“稀疏激活”的方式，只选择一部分“专家”进行计算，其余处于“休眠”状态，来提高模型训练的效率。

此外，在训练大模型过程中，苹果还在3b参数的moe模型中使用了64个专家，在7b参数的moe模型中使用了32个专家。这些专家被分布在模型的不同层中，来提高模型处理多模态数据的能力。

为什么苹果要发布这样一篇实验性的技术论文？

目前，语言模型主要有闭源和开源两种路线，闭源模型中，人们对数据、模型架构、训练细节知之甚少。开源模型虽然会发布数据、模型、训练的细节，但是也不会发布任何模型算法设计以及工程化的细节信息。

苹果想打破这种局面，提出让大模型构建的过程变得“更透明”的路线，这是苹果为什么将各种模型训练的细节公开，发布这篇论文的原因。

苹果的大模型步调：更谨慎，落后于竞争对手

宣布停止造车后，接下来，苹果的重心都在加速大模型进程上，来追赶谷歌、微软、亚马逊。

目前，整体大模型进展，苹果对外的信息较少，看上去已经落后其竞争对手一大截。

在年初的苹果季度财报电话会议上，蒂姆·库克表示，苹果正在投入大量时间和精力将人工智能集成到其软件平台中。这些功能将在2024年晚些时候向客户提供。

库克对于透露苹果大模型细节非常谨慎，他觉得苹果工作模式是先做再说，“我认为苹果在生成式人工智能和人工智能方面存在着巨大的机会，而无需透露更多细节或超出自己的范围。”

据the information2023年9月的一次报道，苹果每天在人工智能上投资数百万美元，正在多个团队开发多种人工智能模型。苹果构建对话式人工智能的部门被称为“基础模型”，有大约16名成员，由apple人工智能主管john giannandrea掌舵。

对于大众期待的大模型与苹果手机结合的业务进展，目前公开的信息也非常有限。去年8月，苹果在加州、西雅图、巴黎、北京等部门已经释放了数十个岗位，招聘大模型技术人才，其中尤其是端侧大型模型是重点。招聘信息显示，苹果希望将大型机型压缩到终端中，以便未来iphone/ipad等核心产品可以直接运行在aigc技术上。

the information报道称，苹果的大语言模型内部代号是ajax gpt，其参数规模超过2000亿，在2023年9月时，已经比openai的gpt-3.5更强大。

苹果也正在试验siri增强功能、生成视频和图像的软件，以及处理图像、视频和文本的多模式人工智能技术。此前，由于苹果一直比竞争对手更加谨慎，将隐私置于功能之上，导致siri落后于alexa、google assistan。接下来，苹果希望通过大语言模型让siri自动执行多步骤任务。

目前，苹果正在与其applecare支持员工一起测试chatgpt式的生成式ai工具“ask”，旨在生成对技术问题的答复。此外，苹果内部也有“apple gpt”是苹果内部的聊天机器人，但该产品仅供苹果员工使用，不会在消费产品中使用。

the information和海通证券分析师jeff pu均表示，苹果将在2024年末左右在iphone和ipad上提供某种生成式ai功能。也有人预测时间会提前，彭博社报道称，苹果将在今年6月的全球开发者大会上发布ios 18更新。

这是一份有挑战的试卷，眼下，苹果必须加大马力，驶入这场大模型战局中。

上一篇：关于进一步规范债券发......

下一篇： alithea ge......

办公环境 office environment

合作伙伴 partner

苹果300亿参数大模型首亮相，还买了家ai公司｜焦点分析-博天堂ag

mm1测试效果不如gemini和gpt4v

苹果的大模型步调：更谨慎，落后于竞争对手