埃隆-马斯克的 xAI 预览了其首款多模态模型 Grok-1.5V

3,411次阅读

一条评论

共计 778 个字符，预计需要花费 2 分钟才能阅读完成。

图片来源：xAI

埃隆-马斯克的 xAI 推出了首个多模态模型。它不仅能理解文本，还能处理文档、图表、截图和照片中的内容。Grok-1.5 Vision（或称 Grok-1.5V）即将面向早期测试者和现有的 Grok 用户推出。

“该公司在一篇博文中说：”Grok-1.5V 在许多领域都能与现有的前沿多模态模型竞争，从多学科推理到理解文档、科学图表、图表、截图和照片。

在今天的发布会上，xAI展示了其升级版聊天机器人Grok-1.5。

该公司重点介绍了七个展示 Grok-1.5V 潜力的例子，包括将白板上的流程图草图转化为 Python 代码、根据孩子的画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式以及识别甲板上是否有腐朽的木头需要更换。

xAI 的 Grok-1.5V 性能与市场上同类领先型号的对比图。来源：xAI

在与同行GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5的测试中，xAI声称其多模态模型脱颖而出。尤其引以为豪的是，Grok-1.5V 在 RealWorldQA 基准测试中的表现优于竞争对手。

xAI 用于训练其 RealWorldQA 基准的图像示例。来源：xAI

首先，RealWorldQA 使用 700 多张图片和每个项目的问答进行训练。xAI 将在知识共享许可协议下向公众发布 RealWorldQA。

自 2023 年 11 月马斯克的聊天机器人首次亮相以来，马斯克的人工智能公司不断取得进步，努力追赶 OpenAI 和其他市场领导者。Grok-1.5V 是在 xAI 将其 Grok AI 开源后不到一个月推出的。但它的努力并非没有争议。本月早些时候，研究人员发现 Grok 聊天机器人可以指导用户进行犯罪活动。

尽管如此，xAI 仍在继续追求构建能够理解宇宙的 “有益的（人工通用智能）”。它透露，未来几个月，Grok AI 的多模态理解和生成能力将有 “重大 “更新。

正文完