👨‍💻 马斯克旗下 xAI 推出 Grok 1.5 版大模型

🤖 参数达1320亿,Databricks 开源 DBRX 大模型。🚇 纽约利用人工智能检测地铁枪支,但真实性遭质疑

2024/03/29  Friday

祝大家周末愉快

👨‍💻 马斯克旗下 xAI 推出 Grok 1.5 版大模型

🤖 参数达1320亿,Databricks 开源 DBRX 大模型

🚇 纽约利用人工智能检测地铁枪支,但真实性遭质疑

2024 年的大模型竞争赛已经打得如火如荼。Databricks 开源 DBRX 没两天,xAI 今天在官方博客中宣布,正式推出 Grok 1.5 大语言模型。

对比 Grok 1,1.5 主要在长上下文理解能力和推理方面有重大升级。上下文窗口方面,Grok 1.5 直接提升到了之前的 16 倍,从 8192 增长到 128k,和 GPT-4 齐平。数学方面,Grok 1.5 在 MATH 基准测试上得分 50.6%,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中竞赛问题。编程方面,Grok 1.5 在 HumanEval 基准测试上得分 74.1%,仅次于 Claude 3 Opus。

Grok 1.5 将在未来几天内在 X 平台上向早期测试人员和现有的 Grok 用户推出。

超级独角兽 Databricks 也加入到了开源大战中,并发布了新一代大模型 DBRX。Databricks 信心满满,称它在基准测试中击败了此前所有开源模型。

DBRX 的纸面参数量为 1320 亿,但因为是混合专家模型,每次激活参数量仅为 360 亿。在语言理解方面,DBRX 的分值为 73.7%,高于 GPT-3.5 的 70.0%;也超过了 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 和 Grok-1 的 73.0%。除了语言理解外,编程能力和数学方面,DBRX 的纸面数据也均超过了上述几个模型。

DBRX 有两个版本:DBRX Base 和 DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。目前两个版本均已在 GitHub 上开源。

🚇 纽约利用人工智能检测地铁枪支,但真实性遭质疑

纽约市将在90天内开始测试使用人工智能检测地铁过道中的枪支。市长亚当斯表示,政府正与一家名为 Evolv 的公司合作,其生产的扫描仪看起来像金属探测器,但配备了人工智能。目前该探测器已在学校和场馆中使用。

Evolv 声称其扫描仪能够检测几乎任何类型的武器。但报告显示,该技术的实际表现并不出色。比如扫描仪曾将雨伞误认为是枪支,但未能检测到模仿枪管的铝管和钢管。

去年,联邦贸易委员会和证券交易委员会都对 Evolv 展开了调查。今年三月,投资者还对该公司提起了集体诉讼,指控其夸大了产品的功效。

尽管如此,亚当斯仍然偏好与 Evolv 合作。怀疑者则认为这里面有猫腻,因为很多亚当斯的竞选资助人持有Evolv的股份。