从阅读X光到解码机密的UFO报告,ChatGPT展示了其视野

CN
Decrypt
關注
1 年前

虽然人工智能通过有时令人毛骨悚然地聪明的聊天机器人迅速崛起,但基于文本的交互已经有些过时了。OpenAI宣布推出GPT-4更新,引入了GPT-Vision(GPT-V),这是最新的多模态人工智能奇迹。随着用户终于有机会测试其全部能力的时刻到来,这一宣布已经成为现实。

多模态大型语言模型(LLM)意味着它不仅可以与书面文字进行交互,还可以通过其他模式进行交互。在这种情况下,新的GPT-V可以理解图像并与之一起工作。此外,由于新的生成艺术工具DALL-E 3,ChatGPT既可以将图像作为输入,也可以生成图像作为输出。

这些新功能引起了科技领域的关注,用户们正在对其进行全面测试。它们能解密关于不明飞行物目击的政府文件吗?可以。“ChatGPT-4V多模态解密了NASA发布的一份关于不明飞行物目击的政府文件,”一条推文赞叹道。“也许真相不在外面,而是就在GPT-V这里。”

基本上,填补文本中的空白是LLM所做的事情。当尝试测试GPT-V的能力时,用户做了下一个最好的事情,让它猜测他审查过的文本的部分。“几乎100%的意图准确性。”他报告说。

当然,很难验证它对被遮蔽部分的猜测是否准确——我们无法向中央情报局询问它在查看黑线时的表现如何。

甚至比揭露政府审查的信息更困难的是理解医生晦涩的手写。但是GPT-V可以解读这些潦草的涂鸦。通过礼貌的提示,GPT-V甚至可以理解最难以辨认的医生笔记,确保“服用两片”不会变成“烘烤蓝格子松饼”。

但要小心。有时,即使是最先进的人工智能也会在经验丰富的——或者关节炎的——医生手中失败,可能需要专家来解读那些难以理解的手写谜题。

对于那些不信任自己的医生的人来说,ChatGPT可以提供即时的第二意见。该模型可以理解X光,并对特定医疗案例提供分析和见解。

但为什么要止步于手写和身体扫描?GPT-V已成为最新的家庭健身教练,为您量身定制家庭设备和目标的锻炼计划。如果您想知道即将食用的餐点中有多少卡路里,GPT-V可以帮您。一位用户欣喜地分享道:“好的,ChatGPT 4.0带有新的视觉功能……什么都认得,甚至是海滩上的海豹。” 链接

室内设计爱好者,欢呼吧!现在人工智能提供设计建议,并可以融入个人偏好。想象一下一个完全展现“你”的生活空间,而无需支付昂贵的设计师费用。只需拍摄您糟糕的房间照片,询问GPT-V如何将其改造成您想要的天堂。

做作业烦恼?只需截取作业内容,GPT-V就会扮演您一直希望坐在您旁边的那个乐于助人的同学的角色。

对于我们中的金融极客,GPT-V不仅仅是有趣的游戏。GPT-V可以深入进行技术分析。只需输入您最喜欢(或最讨厌)的股票或加密货币的截图,它将分析您的图表并做出相应的预测。只需记住这不是财务建议——如果最终变得一贫如洗,没有人工智能会让您致富。

多模态LLM的黎明正在重新定义行业。随着人工智能巨头的发展,GPT-V只是冰山一角。谷歌即将推出的Gemini据传将凭借其多模态能力胜过Bard。NexT-GPT提供了一个开源的替代方案,前景承诺训练出能够处理文字、声音、视频和图像的模型。

这些进步不仅仅是技术术语——它们具有可能重塑我们日常互动、职业乃至世界观的影响。而在OpenAI以GPT-V开创先河的同时,竞争对手也紧随其后。我们是否正处于人工智能复兴的边缘?

如果您仍然只是用人工智能进行聊天,您可能已经落后了。人工智能可以阅读和观察,并且每天都在获得更多的能力。

GPT-V还可以破坏“瓦尔多在哪里?”书的乐趣。为什么有人会想要这样做呢?这是ChaosGPT的领域。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接