Meta发布开源Llama 3.2:能看见并适合携带的人工智能

CN
Decrypt
Follow
7 hours ago

这对于开源人工智能来说是一个不错的一周。

周三,Meta 宣布升级了其最先进的大型语言模型 Llama 3.2,它不仅能说话,还能看。

更有趣的是,一些版本可以在不损失质量的情况下适应您的智能手机,这意味着您可能可以在本地进行私人的人工智能交互、应用和定制,而无需将您的数据发送到第三方服务器。

Llama 3.2 在 Meta Connect 活动上揭开面纱,共有四种版本,每种都有不同的功能。重量级选手——11B90B 参数模型——在文本和图像处理能力方面展现出强大的实力。

它们可以处理诸如分析图表、为图像加上标题,甚至根据自然语言描述在图片中定位物体等复杂任务。

与此同时,Allen Institute 的 Molmo 也在同一周亮相,声称它是最优秀的开源多模态视觉 LLM,在合成基准测试中表现出色,与 GPT-4o、Claude 3.5 Sonnet 和 Reka Core 不相上下。

Zuck 的公司还推出了两位新的轻量级冠军:一对 1B3B 参数模型,旨在提高效率、速度,并处理不需要太多计算的有限但重复的任务。

这些小型模型是多语言文本大师,擅长“工具调用”,这意味着它们可以更好地与编程工具集成。尽管体积小,但它们拥有令人印象深刻的 128K 令牌上下文窗口,与 GPT4o 和其他强大模型一样,使它们非常适合设备端摘要、指令跟踪和重写任务。

Meta 的工程团队进行了一些严肃的数字体操来实现这一目标。首先,他们使用结构修剪从较大的模型中删除不必要的数据,然后采用知识蒸馏——将大型模型的知识转移到较小的模型中——以增加额外的智能。

结果是一组紧凑的模型,在其重量级别中胜过了竞争对手,击败了包括谷歌的 Gemma 2 2.6B 和微软的 Phi-2 2.7B 在内的各种基准测试中的模型。

Meta 也在努力推动设备端人工智能。他们与硬件巨头高通、联发科和 Arm 结成联盟,以确保 Llama 3.2 从一开始就能与移动芯片良好地配合。云计算巨头也不会被忽视——AWS、Google Cloud、Microsoft Azure 和其他许多公司都在其平台上提供对新模型的即时访问。

在内部,Llama 3.2 的视觉能力来自于巧妙的架构调整。Meta 的工程师们在现有的语言模型上加入了适配器权重,从而在预训练的图像编码器和文本处理核心之间创建了一座桥梁。

换句话说,该模型的视觉能力并不是以牺牲其文本处理能力为代价的,因此用户可以期待与 Llama 3.1 相似或更好的文本结果。

Llama 3.2 的发布是开源的——至少按照 Meta 的标准。Meta 正在通过 Llama.comHugging Face 以及他们广泛的合作伙伴生态系统提供模型的下载。

有兴趣在云端运行它的人可以使用自己的 Google Collab Notebook 或使用 Groq 进行基于文本的交互,在不到 3 秒的时间内生成近 5000 个令牌。

我们对 Llama 3.2 进行了全面测试,迅速测试了它在各种任务中的能力。

在基于文本的交互中,该模型的表现与其前身相当。然而,它的编码能力产生了不同的结果。

在 Groq 平台上进行测试时,Llama 3.2 成功地为流行游戏和简单程序生成了代码。然而,当要求较小的 70B 模型为我们设计的自定义游戏创建功能性代码时,它遇到了困难。然而,更强大的 90B 模型效率更高,第一次尝试就生成了一个功能性的游戏。

您可以通过 点击此链接 查看 Llama-3.2 和我们测试的所有其他模型生成的完整代码。

识别图像中的风格和主观元素

Llama 3.2 擅长识别图像中的主观元素。当呈现一张未来主义、赛博朋克风格的图像,并询问它是否符合蒸汽朋克审美时,该模型准确地识别了风格及其元素。它提供了令人满意的解释,指出该图像由于缺少与该流派相关的关键元素而与蒸汽朋克不符。

图表分析也是 Llama 3.2 的另一个强项,尽管它需要高分辨率的图像才能发挥最佳性能。当我们输入包含图表的屏幕截图时,其他模型如 Molmo 或 Reka 能够解释,但 Llama 的视觉能力出现了问题。该模型道歉并解释说,由于图像质量不佳,它无法正确读取字母。

图像中的文本识别

虽然 Llama 3.2 在我们的图表中遇到了小字体的困难,但在阅读较大图像中的文本时表现完美。我们向它展示了一张介绍一个人的演示幻灯片,该模型成功地理解了上下文,区分了姓名和职务,没有出现任何错误。

结论

总的来说,Llama 3.2 相对于其上一代有了很大的改进,是开源人工智能行业的一个重要补充。它的优势在于图像解释和大文本识别,但也有一些潜在改进的空间,特别是在处理低质量图像和处理复杂的自定义编码任务方面。

设备兼容性的承诺对于私人和本地人工智能任务的未来也是有利的,并且是对 Gemini Nano 和苹果专有模型等封闭提议的一个很好的对抗。

Josh QuittnerSebastian Sinclair 编辑

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

Share