OpenAI的ChatGPT-4.5达成了一个曾被认为需要数十年才能实现的里程碑:说服大多数参与者在图灵测试风格的评估中认为它是人类。
在加利福尼亚大学圣地亚哥分校的一项研究中,旨在评估大型语言模型是否能够通过经典的三方图灵测试,报告称GPT-4.5在73%的文本对话中成功。
该研究显示,最新的大型语言模型在表现上优于早期版本,如GPT-4.0以及其他模型,包括ELIZA和LLama-3.1-405 B。
根据加州大学圣地亚哥分校的博士后研究员卡梅伦·琼斯的说法,OpenAI于2月推出的GPT-4.5能够检测微妙的语言线索,使其看起来更像人类。
“如果你问他们作为人类的感觉,模型往往能很好地回答,并且能够令人信服地假装拥有情感和性经历,”琼斯告诉Decrypt。“但他们在实时信息或当前事件等方面表现不佳。”
图灵测试(Turing Test)是由英国数学家阿兰·图灵在1950年提出的,评估机器是否能够足够逼真地模仿人类对话,以至于欺骗一个人类评审。如果评审无法可靠地区分机器和人类,则认为机器通过了测试。
为了评估AI模型的表现,研究人员测试了两种提示类型:一种是带有最少指示的基线提示,另一种是更详细的提示,指导模型采用一个内向、精通互联网的年轻人的声音,并使用俚语。
“我们根据一项探索性研究选择了这些见证者,在该研究中我们评估了五种不同的提示和七种不同的LLM,发现LLaMa-3.1-405B、GPT-4.5和这个角色提示表现最佳,”研究人员在研究中表示。
该研究还讨论了大型语言模型通过图灵测试的更广泛的社会和经济影响,包括潜在的误用。
“一些风险包括虚假信息,比如草根运动,机器人假装是人类以提高对某一事业的兴趣,”琼斯说。“其他风险涉及欺诈或社会工程——如果一个模型随着时间的推移给某人发邮件并显得真实,它可能会说服他们分享敏感信息或访问银行账户。”
周一,OpenAI宣布推出其旗舰GPT模型的下一个版本,GPT-4.1。这个新的AI更加先进,能够处理大量文档、代码库甚至小说。OpenAI表示将于今夏停用GPT-4.5,并用GPT-4.1取而代之。
虽然图灵从未见证今天的AI格局,但琼斯指出,他在1950年提出的测试仍然具有相关性。
“图灵测试在图灵所期望的方式上仍然是相关的,”他说。“在他的论文中,他谈到了学习机器,并建议构建能够通过图灵测试的东西的方法是创建一个从大量数据中学习的计算儿童。这基本上就是现代机器学习模型的工作方式。”
当被问及对该研究的批评时,琼斯承认其价值,同时澄清图灵测试所测量的内容和不测量的内容。
“我想说的主要是,图灵测试并不是一个完美的智力测试——甚至不是一个人类相似性的测试,”他说。“但它在测量的方面是有价值的:即机器是否能够说服一个人它是人类。这是值得测量的,并且具有实际意义。”
编辑:塞巴斯蒂安·辛克莱
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。