共计 778 个字符,预计需要花费 2 分钟才能阅读完成。
埃隆-马斯克的 xAI 推出了首个多模态模型。它不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5 Vision(或称 Grok-1.5V)即将面向早期测试者和现有的 Grok 用户推出。
“该公司在一篇博文中说:”Grok-1.5V 在许多领域都能与现有的前沿多模态模型竞争,从多学科推理到理解文档、科学图表、图表、截图和照片。
在今天的发布会上,xAI展示了其升级版聊天机器人Grok-1.5。
该公司重点介绍了七个展示 Grok-1.5V 潜力的例子,包括将白板上的流程图草图转化为 Python 代码、根据孩子的画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式以及识别甲板上是否有腐朽的木头需要更换。
在与同行GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5的测试中,xAI声称其多模态模型脱颖而出。尤其引以为豪的是,Grok-1.5V 在 RealWorldQA 基准测试中的表现优于竞争对手。
首先,RealWorldQA 使用 700 多张图片和每个项目的问答进行训练。xAI 将在知识共享许可协议下向公众发布 RealWorldQA。
自 2023 年 11 月马斯克的聊天机器人首次亮相以来,马斯克的人工智能公司不断取得进步,努力追赶 OpenAI 和其他市场领导者。Grok-1.5V 是在 xAI 将其 Grok AI 开源后不到一个月推出的。但它的努力并非没有争议。本月早些时候,研究人员发现 Grok 聊天机器人可以指导用户进行犯罪活动。
尽管如此,xAI 仍在继续追求构建能够理解宇宙的 “有益的(人工通用智能)”。它透露,未来几个月,Grok AI 的多模态理解和生成能力将有 “重大 “更新。
埃隆-马斯克的 xAI 预览了其首款多模态模型 Grok-1.5V