作者 | 李忠良、褚星娟

简介:还记得3月18日马斯克开源Grok的那一刻吗? 现在,Grok 1.5 即将登场。 其出色的编码和数学处理能力、更深入的上下文理解(最多可处理128,000条)以及更准确的长文本检索能力令人惊叹。 马斯克就是马斯克,这个速度太让人印象深刻了。 Grok-1.5 将在未来几天内向 X 上的开发人员提供。

Grok-1.5 来了

当地时间3月28日,马斯克发布了Grok-1.5,这是一种全新的人工智能模型,具有前所未有的长上下文支持和高级推理能力。 Grok-1.5 是该系列的最新版本,预计将在未来几天向 X 平台的早期测试者和现有用户提供。 随着两周前公开的 Grok-1 模型权重和网络架构,该团队展示了截至去年 11 月的技术成果,此后在推理和问题解决方面取得了重大进展。

能力与推理

Grok-1.5 最显着的改进之一是编码和数学相关任务的性能提高。 在团队的实验中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8k 基准上取得了 90% 的成绩——这两个数学基准涵盖了从小学到高中的各种竞赛题。 此外,Grok-1.5 在评估代码生成和问题解决能力的基准测试中得分为 74.1%。

长上下文理解能力

Grok-1.5 中的另一个新功能是能够处理多达 128K 上下文窗口。 这将 Grok 的内存容量增加到上一代上下文长度的 16 倍,使其能够从大型文档中消化信息。

此外,Grok-1.5模型可以处理更长、更复杂的提示词,在上下文窗口扩展的同时保持其指令跟踪能力。 在In A(NIAH)评估中,Grok-1.5展示了强大的检索能力。 它可以在长达128K的长上下文中嵌入文本,以达到完美的检索结果。 仅从文本长度来看,Grok-1.5 确实可以实现极大的飞跃,是 GPT-4 的 16 倍。

那么如此强大的模型是如何训练的呢? 让我们看一下 Grok-1.5 的基础设施。

在大规模 GPU 集群上运行领先的大型语言模型 (LLM) 自然需要强大而灵活的基础设施。 Grok-1.5 基于 JAX、Rust 和 的自定义分布式训练框架。 该培训堆栈使 Grok 团队能够以最少的投资进行原型设计并大规模培训新架构。

在大型计算集群上训练大型模型的核心挑战是最大限度地提高训练作业的可靠性和正常运行时间。 Grok 团队的自定义训练协调器能够自动检测有问题的节点并将其从训练作业中删除。 团队还优化了检查点、数据加载、训练作业重启等机制,尽一切可能减少因故障导致的意外停机。

Grok 1.5 VS “最强大”的开源大型模型 DBRX

目前,Grok 团队尚未说明 Grok-1.5 是否开源,但从马斯克与该公司的诉讼推测,Grok-1.5 大概率会开源,否则就有“知行不一”之嫌”。

当前开源大模型市场竞争也非常激烈。 Meta等已经走在了前列,但市场变化也非常快。 当地时间3月27日,美国一家AI初创公司以“黑马”的身份宣布,其团队开发的新型通用大型模型DBRX将开源。 该消息是由 DBRX 项目的首席神经网络架构师在确认测试结果后宣布的。 他自信地告诉团队:“我们已经超越了市场上现有的所有型号。” 部分测试结果如下图所示:

DBRX在多项关键测试中表现良好。 在语言理解的MMLU测试中,DBRX取得了73.7%的成绩; 在代码生成能力测试中,得分为70.1%。

此外,DBRX在数学解题方面也表现非常出色,在GSM8k测试中取得了66.9%的成绩。 这些结果表明,DBRX的编程能力甚至比-70B等专业型号还要强大。

然而,仅仅一天后,Grok 1.5 就发布了。 与“最强”的开源大型模型DBRX相比,Grok 1.5的表现更加亮眼。 假设测试中所有人都不作弊,Grok 在 MMLU 测试中以 81.5% 的成绩领先,在 GSM8k 测试中以 74.1% 的成绩获胜,在 GSM8k 测试中以 90% 的惊人成绩远超 DBRX 的 66.9%。 GSM8k测试。 此外,在长文本上,Grok 1.5 在上下文窗口中最多可以处理 128K,远远超过 DBRX 32K。

当然,这只是测试数据集的表现,并不能完全说明实际情况。 然而,在测试集上良好的性能绝对是一个优势。

开发者热切期待 Grok 1.5

对于Grok-1.5的突然发布,有网友表示Grok-1.5的测试图非常令人印象深刻。 在信息检索方面,其性能与-3-Opus和GPT-4-Turbo相当。 迫不及待地想尝试一下。

每一条评论都充满了网友对 Grok1.5 的热情:“太棒了,这真是令人兴奋的进步!” 随着新功能即将推出,兴奋之情溢于言表。 “我们能了解一下网络界面的发布时间表吗?我在澳大利亚等不及了。” “别忘了智利!即使在 Grok 1.0 版本中,对西班牙语的支持也已经令人惊叹了!”

有网友认为,除非马斯克拥有10倍的优势,否则在开源大型车型的竞争中很难获胜。

当然,值得注意的是,马斯克曾表示,X 平台将向更多用户开放使用 Grok 聊天机器人,特别是那些已经订阅了每月 8 美元高级计划的用户。 这个价格明显比 GPT-4 更经济,GPT-4 的使用费用为每月 19.99 美元,每月费用为 28.99 美元。

此外,从历史上看,X.ai 的 Grok 模型与其他生成式 AI 模型的不同之处在于,它们回答了其他模型通常无法触及的主题问题,例如阴谋和更具争议性的政治思想。 更大胆、更自由。

结论

GPT-4 已经存在一年多了,1.5 几个月前首次亮相,3 则几周前首次亮相。 昨天发布的开源大模型DBRX号称超越了目前所有的大模型,但今天在某些细分领域被Grok 1.5超越了。 未来哪种模式将占据主导地位? 虽然我们还不知道,但毫无疑问,我们正处于人工智能发展的黄金时代,而且我们非常幸运。