OpenAI 宣布推出新的免费模型 GPT-4o 和桌面应用ChatGPT

7,642次阅读

共计 1850 个字符，预计需要花费 5 分钟才能阅读完成。

来源：YouTube 上的 OpenAI/作者截图

今天，在 OpenAI 的春季更新活动上，首席技术官米拉-穆拉提（Mira Murati）宣布了一个功能强大的新的多模态基础大型语言模型（LLM）–GPT-4o（GPT-4 Omni 的缩写），它将在未来几周内向所有免费的 ChatGPT 用户开放，同时还将推出一个 MacOS 版的 ChatGPT 桌面应用程序（稍后将推出 Windows 版），允许用户在网络和移动应用程序之外进行访问。

“穆拉提说：”GPT-4o 的理由涵盖语音、文本和视觉。这包括接受和分析用户在 ChatGPT 智能手机应用程序上捕获的实时视频，不过这一功能尚未公开。

“OpenAI的首席技术官补充说：”这感觉太神奇了，这很好，但我们想消除一些神秘感，让你自己尝试一下。

新模型能实时响应音频，能从音频和视频中检测用户的情绪状态，还能调整声音来传达不同的情绪，这一点与竞争对手人工智能初创公司 Hume 相似。

在演示过程中，主持人要求由 GPT-4o 支持的手机 ChatGPT 用越来越戏剧化和戏剧化的声音讲一个故事，而 ChatGPT 能正确快速地完成任务。当被打断时，它还会停止讲话，并在继续讲话之前倾听用户的声音。

OpenAI 在其网站上发布了 GPT-4o 的演示视频和功能示例，并指出： “它可以在232毫秒内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似”。

该公司解释了 GPT-4o 与以往型号的不同之处，以及如何实现新体验：

“在 GPT-4o 之前，使用语音模式与 ChatGPT 对话的平均延迟时间为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。为实现这一目标，语音模式是由三个独立模型组成的流水线：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息–它不能直接观察音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。

通过 GPT-4o，我们在文本、视觉和音频方面端到端训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个将所有这些模式结合在一起的模型，因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。

新模式为免费 ChatGPT 用户带来更多动力和功能

GPT-4o 所提供的功能是对 ChatGPT 免费用户当前体验的重大升级，到目前为止，他们还停留在纯文本的 GPT-3.5 模型上，缺乏 GPT-4 分析用户上传的图片和文档的强大功能。

现在，ChatGPT 的免费用户将可以访问一个智能化程度更高的模型，进行网页浏览、数据分析和图表创建，访问 GPT Store 以使用其他第三方创建的自定义 GPT，甚至还可以使用内存，这样聊天机器人只需输入或通过声音询问，就可以存储用户想要的信息以及他们的偏好。

此外，它还可用于创建一致的人工智能艺术角色，这是迄今为止大多数人工智能艺术生成器都无法做到的。

OpenAI 联合创始人兼首席执行官山姆-奥特曼（Sam Altman）在活动期间在 X 上发布的帖子称，在应用程序接口中，GPT-4o 的价格将是 GPT-4 Turbo 的一半，速度是 GPT-4 Turbo 的 2 倍，同时速率限制（第三方开发人员在任何给定时间内可以进行的调用量）提高了 5 倍。

桌面 ChatGPT 应用程序首先在 macOS 上推出，今年晚些时候在 Windows 上推出

OpenAI 在博文中表示，新的 ChatGPT 桌面应用程序将首先在 macOS 上交错发布，并在年底前的某个未确定的时间点发布到 Windows 上。

“我们将从今天开始向 Plus 用户推出 macOS 应用程序，并将在未来几周内更广泛地推出该应用程序。我们还计划在今年晚些时候推出 Windows 版本。”

关于桌面应用程序的一个有趣说明是：它将允许 ChatGPT 查看您屏幕的实时视频截图（如果您选择这样做），并分析您的工作流程：

穆拉提在活动中表示，目前已有超过 1 亿人在使用 ChatGPT，用户在 GPT Store 上创建的自定义 GPT 已超过 100 万个。

活动仅进行了 26 分钟就结束了，按技术标准来说时间很短，而且现场演示过程中不时出现主持人打断 ChatGPT 语音应答的尴尬场面，让 ChatGPT 重新定向，或纠正 ChatGPT 错误分析他们没有问到的问题。

不过，随着这项技术即将与用户见面，人们是否会认为它与 GPT-4 Turbo 或 ChatGPT 的最新版本相比有意义的不同，并能提供更好、更强大、更有能力或更自然的体验，我们将拭目以待。

正文完

发表至：科技视界

2024-05-14

1

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Runway举办的洛杉矶电影节标志着人工智能电影的拐点

如何保持人类对人工智能的掌控

18年，Amazon S3 如何成为长盛不衰的云存储服务？

OpenAI 推出视频 AI 模型 Sora，能够生成 60 秒的视频片段

Runway举办的洛杉矶电影节标志着人工智能电影的拐点

OpenAI 宣布推出新的免费模型 GPT-4o 和 桌面应用ChatGPT

新模式为免费 ChatGPT 用户带来更多动力和功能

桌面 ChatGPT 应用程序首先在 macOS 上推出，今年晚些时候在 Windows 上推出

OpenAI 宣布推出新的免费模型 GPT-4o 和桌面应用ChatGPT