埃隆-马斯克的 xAI 预览了其首款多模态模型 Grok-1.5V

424次阅读
一条评论

共计 778 个字符,预计需要花费 2 分钟才能阅读完成。

埃隆-马斯克的 xAI 推出了首个多模态模型。它不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5 Vision(或称 Grok-1.5V)即将面向早期测试者和现有的 Grok 用户推出。

“该公司在一篇博文中说:”Grok-1.5V 在许多领域都能与现有的前沿多模态模型竞争,从多学科推理到理解文档、科学图表、图表、截图和照片。

在今天的发布会上,xAI展示了其升级版聊天机器人Grok-1.5。

该公司重点介绍了七个展示 Grok-1.5V 潜力的例子,包括将白板上的流程图草图转化为 Python 代码、根据孩子的画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式以及识别甲板上是否有腐朽的木头需要更换。

埃隆-马斯克的 xAI 预览了其首款多模态模型 Grok-1.5V
xAI 的 Grok-1.5V 性能与市场上同类领先型号的对比图。来源:xAI

在与同行GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5的测试中,xAI声称其多模态模型脱颖而出。尤其引以为豪的是,Grok-1.5V 在 RealWorldQA 基准测试中的表现优于竞争对手。

埃隆-马斯克的 xAI 预览了其首款多模态模型 Grok-1.5V
xAI 用于训练其 RealWorldQA 基准的图像示例。来源:xAI

首先,RealWorldQA 使用 700 多张图片和每个项目的问答进行训练。xAI 将在知识共享许可协议下向公众发布 RealWorldQA。

自 2023 年 11 月马斯克的聊天机器人首次亮相以来,马斯克的人工智能公司不断取得进步,努力追赶 OpenAI 和其他市场领导者。Grok-1.5V 是在 xAI 将其 Grok AI 开源后不到一个月推出的。但它的努力并非没有争议。本月早些时候,研究人员发现 Grok 聊天机器人可以指导用户进行犯罪活动。

尽管如此,xAI 仍在继续追求构建能够理解宇宙的 “有益的(人工通用智能)”。它透露,未来几个月,Grok AI 的多模态理解和生成能力将有 “重大 “更新。

正文完
 2
裴先生
版权声明:本文于2024-04-15转载自Elon Musk’s xAI previews Grok-1.5V, its first multimodal model,共计778字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(一条评论)
ZYOpxQfh 评论达人 LV.1
2024-04-17 20:52:29 回复

埃隆-马斯克的 xAI 预览了其首款多模态模型 Grok-1.5V

 Windows  Chrome  巴西
本站勉强运行: