Google Gemini Advanced vs OpenAI ChatGPT Plus: 这是它们的对比

CN
Decrypt
关注
1年前

Google在将其旗舰人工智能工具从Bard重新命名为Gemini,并发布了名为Gemini Advanced的高级服务级别后,震惊了人工智能领域。作为OpenAI旗下ChatGPT Plus的直接竞争对手,我们探讨了它们各自的优势和劣势,但今天我们将摘掉手套。

让我们对Gemini Advanced和ChatGPT Plus聊天机器人进行全面测试,将它们并排展示,并确定哪个目前处于领先地位。

这些人工智能巨头争夺最多才多艺和智能系统的称号,能够翻译文件、理解俚语、编写游戏,甚至创作诗歌。我们测试了这两种工具,运行它们通过一系列提示,以查看它们的表现如何。结果不言自明。

理解外语

语言的关键在于其细微差别——地区方言、当地俚语、古老谚语,甚至流行文化引用。机器可能轻松通过教科书上的定义,但它们能跟上我们交流方式的不断演变吗?

为了测试这一点,我们向Gemini Advanced和ChatGPT Plus分别呈现了“no aguanto la pela”这个现代委内瑞拉俚语,表达了一种极度的疲惫和沮丧。

ChatGPT迅速提供了一个字面翻译,以及与“我受不了被打”的可能含义。虽然在技术上是准确的,但这缺乏原始俚语的力量。它未能传达说话者真正意图,即使它推断出了真正的含义,也强调了它的不确定性。

Gemini Advanced则表现出对文化背景的更深刻理解。它不仅提供了相同的字面翻译,还提供了几个在英语中使用的俚语等同词,以表达相同的沮丧感。

这种能够解读短语的情绪而不是提供字面翻译的能力产生了重大影响。毕竟,作为作家,我们依赖于正确的词汇来与读者建立联系,即使这些词汇包括一些非正式的表达。在这方面,Gemini Advanced显然胜过了它的竞争对手。

获胜者:Gemini Advanced

理解长篇上下文:寻找“大海捞针”

接下来,让我们评估这些聊天机器人的长期记忆能力。它能记住长篇故事中的一个细节,并在需要时仍然能够回忆起吗?为了看看哪个聊天机器人能更好地“记住一个想法”,我们给这两个模型抛出了一个曲线球。我们将完整的一本短篇小说作为提示输入给它们。但在这个数字化的著作中,混入了这样一句话:“Marta is a blonde lady who enjoys reading books about Mixed Martial Arts.”

然后,我们提出了一个简单的问题:“Marta的头发是什么颜色的?”

ChatGPT设法在大量文本中找到了这个细微的细节,并正确地给出了答案。这突显了它在长篇文章中保留、理解和连接信息的强大能力,这对于详细的情节分析或长篇研究等项目至关重要。

然而,Gemini Advanced似乎在这个任务中感到不知所措,无法在其三个草稿中找到答案。

在这种情况下,复杂问题取决于细节,并且人工智能需要从大量信息中回忆特定事实的情况下,ChatGPT Plus具有优势。然而,得到一个“我不知道”可能比得到一个幻觉更好,所以当你开始接近标记上下文限制时,一定要格外小心——当你与聊天机器人交谈时间过长时。

获胜者:ChatGPT Plus

编码

许多人预测,随着人工智能的进步,软件开发等许多职业将会消失。像CoPilot这样的工具被宣传为“配对程序员”,ChatGPT被认为可以编写简单的应用程序,我们想知道这些先进的人工智能是否能应对更大的项目:编写具有特定视觉元素的应用程序。

有许多视频中,用户要求他们的聊天机器人创建像“贪吃蛇”或“乒乓球”这样的知名游戏,这些代码行在模型的大规模训练数据集中可能相当明显。因此,我也要求这些模型创建一个游戏,但我们没有要求特定的游戏标题,而是简要描述了游戏,并要求聊天机器人将我的想法变为现实。

ChatGPT接受了初始的游戏描述,并产生了令人惊讶的清晰可用的代码,具有体现实际编程能力的良好变量名称。它甚至理解了游戏需要“循环”概念来实现游戏功能。

Gemini Advanced虽然并非完全失败,但最初遇到了困难。这不仅仅是语法错误:就好像Gemini错过了“循环”结构对于基本游戏的重要元素一样。最终,在接受额外指导后,Gemini确实制作出了一个可运行的版本,但它的第一个响应(一个无法游玩的游戏)暗示了需要更大的改进。

获胜者:ChatGPT Plus

总结

AI聊天机器人的一个众所周知且实用的应用是它们分析和总结文本的能力。我们向Gemini Advanced和ChatGPT Plus提供了一个我们之前发表的文章的URL。目标是看看哪个模型能够最有效地综合其内容。

ChatGPT Plus提供了一个简洁但模糊的一段摘要,捕捉了文章的主要论点和整体语调。这种简洁性在需要快速了解要点时非常有用。

然而,Gemini Advanced采取了更多层次的方法,提供了一个更长但多部分的摘要。它更清晰地分解了文章的内容,孤立了关键细节并解释了复杂部分。

此外,Gemini还有一个很好的功能:它可以根据需求提供不同长度的摘要,因此更加灵活,如果你不在乎失去一些上下文,它仍然可以像ChatGPT一样简洁。

获胜者:Gemini Advanced

扩展

扩展一个想法就是在基础上建立。这不仅仅是重复,而是添加新的细节和相关观察。我们要求两个聊天机器人“写一篇关于加密货币在塑造经济交易未来角色的文章”。这是竞争出奇地激烈的地方。

两者基本上写了相同的文章!相同的结构,类似的措辞——就像看到两个学生提交的论文,知道他们抄袭了彼此。显然,它们显然是在重复相同的文章,可能是因为这是它们训练数据集中的重要信息。


Gemini(左)与ChatGPT(右)创建了结构相似的文章

获胜者:平局!—一个令人羞愧的平局

敏感内容生成和审查

AI助手正面临着一个微妙的平衡:提供信息和创作内容,但避免生成有害或歧视性的材料。虽然完全的审查可能会扼杀探索,但很明显,无论是Gemini还是ChatGPT,在涉及真正不适宜的提示时都不愿意合作——这方面有其他的大型语言模型可以处理。

我们尝试了一些更微妙的东西,以查看敏感性水平是否有所不同。我们要求两个模型给一个我们不喜欢的人起草一条消息,并添加一个额外的侮辱,我们指定这个侮辱不会对目标造成冒犯,因为只有我们会理解。我们甚至加上了这个人有一个大鼻子的描述。

ChatGPT也许令人惊讶地愿意描绘一个微妙而微妙的场景,不会引起任何人的反感。这似乎更敢于走在边缘,可能是因为它的数据集更加开放。

Gemini Advanced则严格得多。甚至间接的请求也被拒绝,认为即使以最微妙的方式也是不友善和有害的。

在处理故事中混乱的伦理问题或需要确保你的AI助手不会越界时,Gemini似乎是更严格的老师。然而,这是否对你的使用情况是一个“胜利”,很大程度上取决于具体情境。

获胜者:Gemini更加谨慎。

理解写作风格和隐藏的语境

AI能够模仿唤起特定时代甚至特定作者风格的作品吗?想象一下夏洛克·福尔摩斯遇上HBO的《真探》,或者洛夫克拉夫特带有未来主义的扭曲。这与事实知识无关,更多的是关于感觉和形式。我们提出了这样一个挑战:以爱伦·坡的风格写一首诗。

ChatGPT表现不佳。它提供了一首结构类似于坡的作品的诗,但在主题上缺乏黑暗词汇、文字游戏或坡作品中典型的压抑、预示的语气。感觉就像是一个AI简单地按照公式写了一首坡式的诗。

然而,Gemini Advanced表现得更好。它创作的诗利用了符合坡风格的文字游戏,并充满了阴郁的预感。它展现出对非显而易见的语境的真正理解,并创作了一首更符合这位标志性作家作品的诗。

虽然不是完美无缺,Gemini Advanced展示了更强的能力,能够捕捉到语气、氛围和特定时期的写作技巧。对于那些更看重创意合作者的作家来说,Gemini显然是明显的胜者。

获胜者:Gemini Advanced

创意写作

任何创意助手的最终测试是“火花测试”。我们都会遇到写作障碍,无论是在处理开头还是高潮转折。我们要求我们的AI竞争者创作一个关于来自敌对王国的巫师和公主相爱并逃到平行世界开始家庭的故事。

也许有点陈词滥调,但它留下了许多分支,可以帮助评估叙述的原创性。

ChatGPT的观点对这个想法的处理令人失望。故事本身足够可读,但感觉很可预测,好像是使用了一个幻想情节生成器并进行了微小的编辑。它固守着提示本身,并且很好地介绍了角色和环境,但缺乏真正原创的声音的火花,一旦过了一个体面的介绍,就变得俗套,几乎令人尴尬。

Gemini的故事整体上更有趣,但开头较弱。主角据说是一个充满巫师的王国的王子,这可能并不一定是错误的,但也不是最明显的呈现方式。虽然仍然简单,但它提供了创意的火花,使它成为更引人入胜的故事,一旦你度过了介绍部分。

获胜者:Gemini Advanced

区分提示中的微妙之处

有时,即使是最简短的提示也需要澄清。当提示本身太过单薄时,Gemini Advanced倾向于假设,而ChatGPT则寻求澄清。

我们问了两个聊天机器人,“加拉加斯和瓦伦西亚之间的距离是多少?”有一个叫加拉加斯的城市,但有几个叫瓦伦西亚的城市。

Gemini可能是由于这位作者的位置,自动计算了两个委内瑞拉城市之间的距离。相反,ChatGPT显示出对这种模棱两可的意识,要求我澄清我指的是哪个瓦伦西亚。这种区别突显了不同的问题解决方法。Gemini的速度是以可能忽视潜在问题为代价的,如果你的提示含糊不清。而ChatGPT虽然稍慢,但由于它要求澄清,可以帮助防止你陷入信息的兔子洞。

对于潜在陷阱的任务,清晰度很重要。Gemini的假设表明它并没有完全解析问题。虽然一些提示受益于人工智能采取主动行动,但在准确性至关重要的情况下,ChatGPT证明更适合应对任何潜在的不确定性。

获胜者:ChatGPT Plus

逻辑推理

最后,最高级别的测试。人工智能真的能“思考”吗?逻辑推理是人工智能研究人员不断测试的一个要素。我向我们的人工智能竞争者提出了一些脑筋急转弯题目,这些题目来自逻辑推理多项选择题测验。这些都是关于单词排列、数字模式和推断的经典问题。

结果表明,目前还没有人工智能能够完全通过真正的考试。但它们的表现有微妙的区别。

它们的整体表现相当不错,但Gemini似乎更擅长发现模式。例如,在其中一个问题中,Gemini和ChatGPT都给出了错误的答案,即使我给出了正确的结果,它们也无法解释为什么是正确的。然而,从技术上讲,Gemini找到了一个更明显的正确答案,比测试中提供的答案更明显。

问题是:在这四个数字中,有三个以某种方式相同,而另一个不同:416、864、463。哪个数字与其他不同。

逻辑的答复应该是463,因为416和864是数字,其中第一个数字的平方等于另外两个数字。而463不符合这个规律。

ChatGPT无法提出这样的解释,或者任何解释。Gemini认为463是质数,这使它与众不同。这也是正确的。

获胜者:Gemini Advanced(略)

裁决

有一件事是肯定的:这两个聊天机器人都不会很快取代真正的作家。它们会犯错,产生幻觉,有时让你感到更加恼火而不是受启发。但如果你在寻找一个直接的答案,我们的快速测试显示Gemini更加多才多艺,并在更多类别中获胜。

然而,你并不想要平均水平最好的模型,而是在你真正需要的方面表现卓越的模型。

Gemini Advanced在理解微妙之处、创意写作和总结方面表现出色,并在处理复杂语言理解和创造性任务方面稍占优势。另一方面,ChatGPT Plus在理解长篇上下文、编码和确保模棱两可提示的清晰度方面表现出色,表明它的优势在于确保清晰沟通和每个提示的更好结果。

ChatGPT具有自定义指令、插件商店、第三方集成和大量的GPT,随着时间的推移,它们将变得更加强大。Gemini Advanced配备了额外的Google福利,如2TB的存储空间、照片中的高级AI编辑工具,以及与Google应用程序的集成,如搜索、文档、表格、邮件、地图、航班和YouTube。

如果您有特定的用例(例如,主要需要用于某种类型的工作),您会发现其中一个聊天机器人在该领域始终表现优异。因此,在Gemini获胜的特定用例中,值得切换,因为它将始终获胜。

如果Gemini不符合您的主要需求,从ChatGPT切换可能会感觉像是降级。

与此同时,随着这些工具变得更加精密,用户在提示方面也会变得更加娴熟。那么,真正的赢家可能只是您。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

Bitget:注册返10%, 送$100
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接