ChatGPT 现在可以实时观看和与您互动

CN
Decrypt
關注
4 個月前

OpenAI在周四揭开了ChatGPT期待已久的视频功能,让用户可以用手机对准物体进行实时AI分析——这一功能自5月首次演示以来一直未被使用。

之前,用户可以输入文本、图表、语音或静态照片与GPT互动。周四晚些时候发布的这一功能允许GPT实时观察用户并进行对话反馈。例如,在我的测试中,这种模式能够解决数学问题、提供食谱、讲故事,甚至变成我女儿的新好朋友,在她做煎饼时与她互动,给出建议并通过不同的游戏鼓励她的学习过程。

此次发布恰逢谷歌展示其基于新推出的Gemini 2.0的相机支持AI助手的方案。Meta也在这个领域进行探索,推出了可以通过手机摄像头进行视觉和对话的AI。

不过,ChatGPT的新功能并不适合所有人。只有Plus、Team和Pro订阅用户可以访问OpenAI所称的“带视觉的高级语音模式”。Plus订阅每月费用为20美元,而Pro级别的费用为200美元。

“我们很高兴地宣布,我们将视频引入高级语音模式,这样您就可以在与ChatGPT的对话中带入实时视频和实时屏幕共享,”OpenAI首席产品官Kevin Weil在周四的一段视频中说道。

此次直播是其“OpenAI的12天”活动的一部分,该活动将在连续12天内展示12个不同的公告。到目前为止,OpenAI已为所有用户推出了o1模型,并推出了每月200美元的ChatGPT Pro计划,介绍了用于定制模型的强化微调,发布了其生成视频应用Sora,更新了画布功能,并通过科技巨头的Apple Intelligence功能将ChatGPT发布到苹果设备上。

该公司在周四的直播中展示了其功能。用户可以在与高级语音相同的界面中激活视频模式,并开始与聊天机器人实时互动。聊天机器人具有出色的视觉理解能力,能够以低延迟提供相关反馈,使对话感觉自然。

然而,走到这一步并不顺利。OpenAI在4月底首次承诺这些功能将在“几周内”推出,但由于在高级语音模式中未经许可模仿女演员斯嘉丽·约翰逊的声音而引发争议,该功能被推迟。由于视频模式依赖于高级语音模式,这显然延缓了推出。

而竞争对手谷歌也没有闲着。Project Astra本周刚刚在Android上交给“受信任的测试者”,承诺提供类似的功能:一个可以说多种语言的AI,能够访问谷歌的搜索和地图,并能记住对话长达10分钟。

然而,这一功能尚未广泛可用,预计将在明年初进行更大范围的推出。谷歌对其AI模型还有更雄心勃勃的计划,使其能够实时执行任务,展现超越视听互动的自主行为。

Meta也在争夺下一个AI交互时代的席位。其助手Meta AI在今年九月亮相。它展现了与OpenAI和谷歌的新助手相似的能力,提供低延迟的响应和实时视频理解。

但Meta押注于使用增强现实来推动其AI产品,推出了“隐蔽”的智能眼镜,能够支持这些交互,眼镜框架内内置的小型摄像头使其成为可能。Meta称之为Project Orion

当前的ChatGPT Plus用户可以通过点击聊天栏旁边的语音图标来尝试新的视频功能,然后点击视频按钮。屏幕共享需要通过三点(即“汉堡”)菜单额外点击一次。

对于渴望尝试新视频功能的企业和教育版ChatGPT用户来说,1月是个关键月份。至于欧盟的订阅用户?他们目前只能在旁观望。

编辑:Andrew Hayward

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

派网:注册并领取高达10000 USDT
廣告
分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接