共计 1850 个字符,预计需要花费 5 分钟才能阅读完成。
今天,在 OpenAI 的春季更新活动上,首席技术官米拉-穆拉提(Mira Murati)宣布了一个功能强大的新的多模态基础大型语言模型(LLM)–GPT-4o(GPT-4 Omni 的缩写),它将在未来几周内向所有免费的 ChatGPT 用户开放,同时还将推出一个 MacOS 版的 ChatGPT 桌面应用程序(稍后将推出 Windows 版),允许用户在网络和移动应用程序之外进行访问。
“穆拉提说:”GPT-4o 的理由涵盖语音、文本和视觉。这包括接受和分析用户在 ChatGPT 智能手机应用程序上捕获的实时视频,不过这一功能尚未公开。
“OpenAI的首席技术官补充说:”这感觉太神奇了,这很好,但我们想消除一些神秘感,让你自己尝试一下。
新模型能实时响应音频,能从音频和视频中检测用户的情绪状态,还能调整声音来传达不同的情绪,这一点与竞争对手人工智能初创公司 Hume 相似。
在演示过程中,主持人要求由 GPT-4o 支持的手机 ChatGPT 用越来越戏剧化和戏剧化的声音讲一个故事,而 ChatGPT 能正确快速地完成任务。当被打断时,它还会停止讲话,并在继续讲话之前倾听用户的声音。
OpenAI 在其网站上发布了 GPT-4o 的演示视频和功能示例,并指出: “它可以在232毫秒内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似”。
该公司解释了 GPT-4o 与以往型号的不同之处,以及如何实现新体验:
“在 GPT-4o 之前,使用语音模式与 ChatGPT 对话的平均延迟时间为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。为实现这一目标,语音模式是由三个独立模型组成的流水线:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息–它不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。
通过 GPT-4o,我们在文本、视觉和音频方面端到端训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个将所有这些模式结合在一起的模型,因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。
新模式为免费 ChatGPT 用户带来更多动力和功能
GPT-4o 所提供的功能是对 ChatGPT 免费用户当前体验的重大升级,到目前为止,他们还停留在纯文本的 GPT-3.5 模型上,缺乏 GPT-4 分析用户上传的图片和文档的强大功能。
现在,ChatGPT 的免费用户将可以访问一个智能化程度更高的模型,进行网页浏览、数据分析和图表创建,访问 GPT Store 以使用其他第三方创建的自定义 GPT,甚至还可以使用内存,这样聊天机器人只需输入或通过声音询问,就可以存储用户想要的信息以及他们的偏好。
此外,它还可用于创建一致的人工智能艺术角色,这是迄今为止大多数人工智能艺术生成器都无法做到的。
OpenAI 联合创始人兼首席执行官山姆-奥特曼(Sam Altman)在活动期间在 X 上发布的帖子称,在应用程序接口中,GPT-4o 的价格将是 GPT-4 Turbo 的一半,速度是 GPT-4 Turbo 的 2 倍,同时速率限制(第三方开发人员在任何给定时间内可以进行的调用量)提高了 5 倍。
桌面 ChatGPT 应用程序首先在 macOS 上推出,今年晚些时候在 Windows 上推出
OpenAI 在博文中表示,新的 ChatGPT 桌面应用程序将首先在 macOS 上交错发布,并在年底前的某个未确定的时间点发布到 Windows 上。
“我们将从今天开始向 Plus 用户推出 macOS 应用程序,并将在未来几周内更广泛地推出该应用程序。我们还计划在今年晚些时候推出 Windows 版本。”
关于桌面应用程序的一个有趣说明是:它将允许 ChatGPT 查看您屏幕的实时视频截图(如果您选择这样做),并分析您的工作流程:
穆拉提在活动中表示,目前已有超过 1 亿人在使用 ChatGPT,用户在 GPT Store 上创建的自定义 GPT 已超过 100 万个。
活动仅进行了 26 分钟就结束了,按技术标准来说时间很短,而且现场演示过程中不时出现主持人打断 ChatGPT 语音应答的尴尬场面,让 ChatGPT 重新定向,或纠正 ChatGPT 错误分析他们没有问到的问题。
不过,随着这项技术即将与用户见面,人们是否会认为它与 GPT-4 Turbo 或 ChatGPT 的最新版本相比有意义的不同,并能提供更好、更强大、更有能力或更自然的体验,我们将拭目以待。