OpenAI首推旗舰生成式AI模型GPT-4o 为ChatGPT聊天机器人提供更多功能

2024-05-22 资讯

盖世汽车讯据外媒报道，OpenAI宣布推出新的旗舰生成式AI模型GPT-4o（“o”代表“omni”，即该模型处理文本、语音和视频的能力）。根据演示视频，它可以与用户进行近乎实时的语音对话，表现出类人的性格和行为。

（图片来源：OpenAI）

GPT-4o提供“GPT-4级别”智能，但速度更快，并改进了GPT-4跨多种模式和媒体的能力。OpenAI首席技术官Mira Murati表示：“GPT-4o可以跨语音、文本和视觉进行推理。这非常重要，因为我们正在研究人类与机器交互的未来。”

GPT-4o极大地改善了OpenAI的人工智能聊天机器人ChatGPT的体验。该平台长期以来一直提供语音模式，使用文本转语音模型转录聊天机器人的响应，但GPT-4o对此进行了增强，让用户与更像助手一样的ChatGPT进行交互。

例如，用户可以向GPT-4o支持的ChatGPT进行提问，并在ChatGPT回答时打断它。OpenAI 表示，该模型提供“实时”响应能力，甚至可以识别用户声音中的细微差别，从而生成“一系列不同情感风格（包括唱歌）”的声音。

GPT-4o还升级了ChatGPT的视觉能力。现在，向它展示一张照片或桌面屏幕，ChatGPT可以快速回答相关问题，主题范围包括“这段软件代码中发生了什么？”到“这个人穿什么牌子的衬衫？”Murati表示，这些功能未来将得到进一步发展。目前，GPT-4o可以查看不同语言的菜单图片并进行翻译。举例来说，未来该模型可以支持ChatGPT“观看”现场体育比赛，并向用户解释规则。

Murati表示：“这些模型变得越来越复杂，但我们希望实际交互体验变得更自然、轻松，并且客户无需关注用户界面，而只关注与ChatGPT的协作。在过去几年里，我们一直非常专注于提高这些模型的智能，这是我们第一次在易用性方面真正迈出一大步。”

为了使先进的人工智能在全球范围内更易于获得和使用，GPT-4o的语言功能在质量和速度方面得到了提高。现在，ChatGPT支持50多种语言（在新窗口中打开），包括注册、登录和用户设置等。

OpenAI计划在未来几周内首先向“一小群值得信赖的合作伙伴”提供GPT-4o新音频功能支持。