从阅读X光到解码机密的UFO报告，ChatGPT展示了其视野

虽然人工智能通过有时令人毛骨悚然地聪明的聊天机器人迅速崛起，但基于文本的交互已经有些过时了。OpenAI宣布推出GPT-4更新，引入了GPT-Vision（GPT-V），这是最新的多模态人工智能奇迹。随着用户终于有机会测试其全部能力的时刻到来，这一宣布已经成为现实。

多模态大型语言模型（LLM）意味着它不仅可以与书面文字进行交互，还可以通过其他模式进行交互。在这种情况下，新的GPT-V可以理解图像并与之一起工作。此外，由于新的生成艺术工具DALL-E 3，ChatGPT既可以将图像作为输入，也可以生成图像作为输出。

这些新功能引起了科技领域的关注，用户们正在对其进行全面测试。它们能解密关于不明飞行物目击的政府文件吗？可以。“ChatGPT-4V多模态解密了NASA发布的一份关于不明飞行物目击的政府文件，”一条推文赞叹道。“也许真相不在外面，而是就在GPT-V这里。”

基本上，填补文本中的空白是LLM所做的事情。当尝试测试GPT-V的能力时，用户做了下一个最好的事情，让它猜测他审查过的文本的部分。“几乎100%的意图准确性。”他报告说。

当然，很难验证它对被遮蔽部分的猜测是否准确——我们无法向中央情报局询问它在查看黑线时的表现如何。

甚至比揭露政府审查的信息更困难的是理解医生晦涩的手写。但是GPT-V可以解读这些潦草的涂鸦。通过礼貌的提示，GPT-V甚至可以理解最难以辨认的医生笔记，确保“服用两片”不会变成“烘烤蓝格子松饼”。

但要小心。有时，即使是最先进的人工智能也会在经验丰富的——或者关节炎的——医生手中失败，可能需要专家来解读那些难以理解的手写谜题。

对于那些不信任自己的医生的人来说，ChatGPT可以提供即时的第二意见。该模型可以理解X光，并对特定医疗案例提供分析和见解。

但为什么要止步于手写和身体扫描？GPT-V已成为最新的家庭健身教练，为您量身定制家庭设备和目标的锻炼计划。如果您想知道即将食用的餐点中有多少卡路里，GPT-V可以帮您。一位用户欣喜地分享道：“好的，ChatGPT 4.0带有新的视觉功能……什么都认得，甚至是海滩上的海豹。” 链接

室内设计爱好者，欢呼吧！现在人工智能提供设计建议，并可以融入个人偏好。想象一下一个完全展现“你”的生活空间，而无需支付昂贵的设计师费用。只需拍摄您糟糕的房间照片，询问GPT-V如何将其改造成您想要的天堂。

做作业烦恼？只需截取作业内容，GPT-V就会扮演您一直希望坐在您旁边的那个乐于助人的同学的角色。

对于我们中的金融极客，GPT-V不仅仅是有趣的游戏。GPT-V可以深入进行技术分析。只需输入您最喜欢（或最讨厌）的股票或加密货币的截图，它将分析您的图表并做出相应的预测。只需记住这不是财务建议——如果最终变得一贫如洗，没有人工智能会让您致富。

多模态LLM的黎明正在重新定义行业。随着人工智能巨头的发展，GPT-V只是冰山一角。谷歌即将推出的Gemini据传将凭借其多模态能力胜过Bard。NexT-GPT提供了一个开源的替代方案，前景承诺训练出能够处理文字、声音、视频和图像的模型。

这些进步不仅仅是技术术语——它们具有可能重塑我们日常互动、职业乃至世界观的影响。而在OpenAI以GPT-V开创先河的同时，竞争对手也紧随其后。我们是否正处于人工智能复兴的边缘？

如果您仍然只是用人工智能进行聊天，您可能已经落后了。人工智能可以阅读和观察，并且每天都在获得更多的能力。

GPT-V还可以破坏“瓦尔多在哪里？”书的乐趣。为什么有人会想要这样做呢？这是ChaosGPT的领域。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精選文章