OpenAI首推旗舰生成式AI模型GPT-4o 为ChatGPT聊天机器人提供更多功能
盖世汽车讯 据外媒报道,OpenAI宣布推出新的旗舰生成式AI模型GPT-4o(“o”代表“omni”,即该模型处理文本、语音和视频的能力)。根据演示视频,它可以与用户进行近乎实时的语音对话,表现出类人的性格和行为。
(图片来源:OpenAI)
GPT-4o提供“GPT-4级别”智能,但速度更快,并改进了GPT-4跨多种模式和媒体的能力。OpenAI首席技术官Mira Murati表示:“GPT-4o可以跨语音、文本和视觉进行推理。这非常重要,因为我们正在研究人类与机器交互的未来。”
GPT-4o极大地改善了OpenAI的人工智能聊天机器人ChatGPT的体验。该平台长期以来一直提供语音模式,使用文本转语音模型转录聊天机器人的响应,但GPT-4o对此进行了增强,让用户与更像助手一样的ChatGPT进行交互。
例如,用户可以向GPT-4o支持的ChatGPT进行提问,并在ChatGPT回答时打断它。OpenAI 表示,该模型提供“实时”响应能力,甚至可以识别用户声音中的细微差别,从而生成“一系列不同情感风格(包括唱歌)”的声音。
GPT-4o还升级了ChatGPT的视觉能力。现在,向它展示一张照片或桌面屏幕,ChatGPT可以快速回答相关问题,主题范围包括“这段软件代码中发生了什么?”到“这个人穿什么牌子的衬衫?”Murati表示,这些功能未来将得到进一步发展。目前,GPT-4o可以查看不同语言的菜单图片并进行翻译。举例来说,未来该模型可以支持ChatGPT“观看”现场体育比赛,并向用户解释规则。
Murati表示:“这些模型变得越来越复杂,但我们希望实际交互体验变得更自然、轻松,并且客户无需关注用户界面,而只关注与ChatGPT的协作。在过去几年里,我们一直非常专注于提高这些模型的智能,这是我们第一次在易用性方面真正迈出一大步。”
为了使先进的人工智能在全球范围内更易于获得和使用,GPT-4o的语言功能在质量和速度方面得到了提高。现在,ChatGPT支持50多种语言(在新窗口中打开),包括注册、登录和用户设置等。
OpenAI计划在未来几周内首先向“一小群值得信赖的合作伙伴”提供GPT-4o新音频功能支持。