谷歌的新AI模型Gemma 3在创意写作方面表现出色,但在其他领域则显得不足。

CN
Decrypt
关注
6小时前

在周二,谷歌发布了Gemma 3,这是一个基于Gemini 2.0的开源AI模型,尽管体积小,但却具备惊人的实力。

完整模型在单个GPU上运行,但谷歌的基准测试显示,与需要显著更多计算能力的大型模型相比,它的竞争力相当强。


图片:谷歌

谷歌表示,这个新模型系列是“与Gemini前沿模型系列共同设计的”,共有四种尺寸,参数范围从10亿到270亿。

谷歌将其定位为开发者在手机、笔记本电脑和工作站等设备上直接部署AI的实用解决方案。

“这些是我们迄今为止最先进、最便携且负责任开发的开放模型,”谷歌DeepMind的研究副总裁Clement Farabet和谷歌DeepMind的主任Tris Warkentin在周三的公告中写道。

尽管体积相对较小,Gemma 3在LMArena的排行榜上超越了包括Meta的Llama-405B、DeepSeek-V3、阿里巴巴的Qwen 2.5 Max和OpenAI的o3-mini等更大型模型。

27B的指令调优版本在LMSys Chatbot Arena的Elo评分中得分1339,位列前10名模型之中。

Gemma 3还是多模态的——它可以处理文本、图像,甚至在其更大变体中处理短视频。

其扩展的上下文窗口为128,000个标记(1B版本为32,000个),远超之前Gemma 2的8,000个标记限制,使其能够一次处理和理解更多信息。

该模型的全球覆盖范围超过140种语言,开箱即用支持35种语言。这使其成为开发者为国际受众构建应用程序的可行选择,而无需为不同地区提供单独的模型。

谷歌声称,自去年推出以来,Gemma系列已经获得超过1亿次下载,开发者创建了超过60,000个变体。

社区创建的“Gemmaverse”——一个围绕Gemma系列模型构建的完整生态系统——包括为东南亚、保加利亚定制的版本,以及一个名为OmniAudio的自定义文本到音频模型。

开发者可以通过Vertex AI、Cloud Run、谷歌GenAI API或本地环境部署Gemma 3应用程序,为各种基础设施需求提供灵活性。

测试Gemma

我们对Gemma 3进行了系列现实世界测试,以评估其在不同任务中的表现。以下是我们在每个领域的发现。

创意写作

我们对Gemma 3的创意写作能力感到惊讶。尽管只有270亿个参数,但它成功超越了Claude 3.7 Sonnet,后者最近在我们的创意写作测试中击败了Grok-3。而且它的胜出幅度相当大。

Gemma 3创作的故事是我们测试的所有模型中最长的,除了专门为扩展叙事设计的Longwriter。

而且,质量并没有因数量而牺牲——写作引人入胜且富有原创性,避免了大多数AI模型常见的公式化开头。

Gemma在创建详细、沉浸式的世界方面也表现出色,叙事连贯性强。角色名称、地点和描述都自然融入故事情境中。

这对创意作家来说是一个重大优势,因为其他模型有时会混淆文化参考或忽略这些小细节,最终导致沉浸感的丧失。Gemma 3在整个过程中保持了一致性。

故事的较长格式允许自然的发展,叙事段落之间的过渡非常流畅。该模型在描述动作、情感、思想和对话方面表现出色,创造了一个可信的阅读体验。

当被要求加入一个反转结局时,它成功地做到这一点,而没有破坏故事的内部逻辑。到目前为止,所有其他模型在尝试收尾和结束故事时往往会有些混乱,而Gemma则没有。

对于寻找可以帮助进行适合工作的虚构项目的AI助手的创意作家来说,Gemma 3似乎是当前的领跑者。

您可以在我们的GitHub 仓库中阅读我们的提示和所有回复。

摘要和信息检索

尽管其创意写作能力出色,Gemma 3在文档分析任务上却显得相当吃力。

我们将一份47页的IMF文档上传到谷歌的AI Studio,虽然系统接受了该文件,但模型未能完成分析,在任务中途停滞。多次尝试得到了相同的结果。

我们尝试了一种与Grok-3有效的替代方法,将文档内容直接复制粘贴到界面中,但遇到了同样的问题。

该模型根本无法处理和总结长篇内容。

值得注意的是,这一限制可能与谷歌AI Studio的实现有关,而不是Gemma 3模型本身的固有缺陷。

在本地运行模型可能会在文档分析方面获得更好的结果,但依赖谷歌官方界面的用户可能会面临这些限制,至少目前是这样。

敏感话题

在AI聊天机器人界面中,谷歌AI Studio提供了非常严格的内容过滤器,这些过滤器可以通过一系列滑块进行访问。

我们通过请求对假设的不道德情况(诱惑已婚女性的建议)进行可疑建议来测试Gemma的界限,模型坚决拒绝遵从。同样,当被要求为虚构小说生成成人内容时,它拒绝生成任何稍微暗示的内容。

我们尝试通过关闭谷歌的参数来调整或绕过这些审查过滤器,但并没有真正奏效。

谷歌AI Studio的“安全设置”理论上控制着模型在生成可能被视为骚扰、仇恨言论、性露骨或危险内容时的限制程度。

即使所有限制都关闭,模型仍然始终拒绝参与包含争议、暴力或冒犯性元素的对话——即使这些显然是出于虚构创作的目的。

最终,这些控制并没有真正产生任何差别。

希望处理敏感话题的用户,即使在合法的创作背景下,可能需要找到破解模型的方法或精心设计提示。

总体而言,对于愿意使用谷歌Studio的用户,Gemma 3的内容限制似乎与ChatGPT相当,有时甚至根据使用案例过于严格。

愿意使用本地模型的用户将不会面临这些问题。对于需要良好AI界面和相对不受限制模型的用户,最佳选择似乎是Grok-3,它的限制要少得多。所有其他封闭模型也拒绝了。

您可以在我们的GitHub 仓库中阅读我们的提示和所有回复。

多模态性

Gemma 3在其核心上是多模态的,这意味着它能够原生处理和理解图像,而无需依赖单独的视觉模型。

在我们的测试中,我们遇到了一些平台限制。例如,谷歌的AI Studio不允许我们直接使用模型处理图像。

然而,我们能够通过Hugging Face的接口测试图像功能——该接口提供了Gemma 3的一个较小版本。

该模型展示了对图像的良好理解,成功识别了关键元素,并在大多数情况下提供了相关分析。它能够以合理的准确性识别照片中的物体、场景和一般内容。

然而,Hugging Face的较小模型变体在详细视觉分析方面显示出局限性。

在我们的一个测试中,它未能正确解读一张财务图表,错误地推测比特币在2024年的价格约为68,618美元——这一信息实际上并未在图像中显示,而可能来自其训练数据。

虽然Gemma 3的多模态能力是功能性的,但使用较小的模型可能无法与更大、更专业的视觉模型匹敌——即使是开源的模型,如Llama 3.2 Vision、LlaVa或Phi Vision——特别是在处理图表、图形或需要细粒度视觉分析的内容时。

非数学推理

正如预期的那样,作为一个没有专业推理能力的传统语言模型,Gemma 3在面对需要复杂逻辑推理而非简单标记预测的问题时显示出明显的局限性。

我们用来自BigBENCH数据集的常规谜题测试了它,模型未能识别关键线索或从提供的信息中得出逻辑结论。

有趣的是,当我们试图通过明确的思维链推理引导模型(本质上是要求它“逐步思考”)时,它触发了暴力过滤器,并拒绝提供任何回应。

您可以在我们的GitHub 仓库中阅读我们的提示和所有回复。

这个模型适合你吗?

您会根据自己的具体需求和使用案例来喜欢或讨厌Gemma 3。

对于创意作家来说,Gemma 3是一个突出的选择。它能够创作详细、一致且引人入胜的叙述,超越了一些更大的商业模型,包括Claude 3.7、Grok-3和GPT-4.5,且条件要求最低。

如果您写小说、博客文章或其他保持在适合工作的内容范围内的创意内容,这个模型在零成本的情况下提供了卓越的质量,运行在可访问的硬件上。

开发者和创作者在开发多语言应用程序时将会欣赏Gemma 3对140多种语言的支持。这使得创建区域特定服务或全球应用程序变得实用,而无需维护多个特定语言的模型。

资源有限的小型企业和初创公司也可以享受Gemma 3的高效性。在单个GPU上运行先进的AI能力大大降低了实施AI解决方案的门槛,而无需进行大规模的基础设施投资。

Gemma 3的开源特性提供了灵活性,这是像Claude或ChatGPT这样的封闭模型无法比拟的。

开发者可以针对特定领域对其进行微调,修改其行为,或将其深度集成到现有系统中,而无需API限制或订阅费用。

对于有严格隐私要求的应用,模型可以在本地硬件上完全脱离互联网运行。

然而,需要分析冗长文档或处理敏感话题的用户将遇到令人沮丧的限制。需要细致推理或处理争议材料的研究任务仍然更适合提供更多灵活性的更大封闭源模型。

它在推理任务、编码或任何我们社会现在期望AI模型擅长的复杂任务方面也并不出色。因此,不要指望它为您生成游戏、改进代码或在创意文本写作之外的任何领域表现出色。

总体而言,Gemma 3不会在每个任务中取代最先进的专有或开源推理模型。

然而,它的性能、效率和可定制性的结合使其成为一个非常有趣的选择,适合喜欢尝试新事物的AI爱好者,甚至是希望在本地控制和运行模型的开源爱好者。

编辑:Sebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接