Meta-LIama-4-重夺开源第一:DeepSeek-同等代码能力但参数减半-一张-H100-就能跑-还有两万亿参数超大杯
AI 不过周末,硅谷也是如此。大周日的,Llama 家族上新,一群 LIama 4 就这么突然发布了。
这是 Meta 首个基于 MoE 架构模型系列,目前共有三个款:
Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。
最后一个尚未推出,只是预告,但 Meta 已经毫不避讳地称前两者是“我们迄今为止最先进的型号,也是同类产品中最好的多模态型号”。
详细来看一些关键词 ——
Llama 4 Scout,16 位专家的 170 亿激活参数的多模态模型,单个 H100 GPU 可运行,同类 SOTA,并拥有 10M 上下文窗口。
Llama 4 Maverick,128 位专家的 170 亿激活参数多模态模型,击败 GPT-4o 和 Gemini 2.0 Flash,与 DeepSeek-V3 同等代码能力参数只要一半,主打与 DeepSeek 一样的性价比,单个 H100 主机即可运行。
Llama 4 Behemoth:2 万亿参数的超大超强模型,以上二者都由这个模型蒸馏而来;目前还在训练中;多个基准测试超过 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
Meta 官推激情表示,这些 Llama 4 模型标志着 Llama 生态系统新时代 —— 原生多模态 AI 创新的开始。
与此同时,大模型竞技场排名迎来一轮更新。
此次发布的 Llama 4 Maverick,在困难提示、编码、数学、创意写作方面并列第一;得分 1417,不仅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),还成为史上第 4 个突破 1400 分的模型;。
而且跑分明确 —— 超越 DeepSeek-V3,实现亮相即登顶,直接成为排名第一的开源模型。
谷歌 CEO 劈柴哥第一时间发来贺电:
AI 世界,从不平淡!
恭喜呀!前进吧,Llama 4 团队!
中杯、大杯首批亮相
了解了 Llama 4 家族全体成员后,我们先来见识一下首批发布的 2 个模型:
中杯
:Llama 4 Scout(侦查兵 Llama 4)。
大杯
:Llama 4 Maverick(特立独行的 Llama 4)。
两者均已能在 Llama 官网和抱抱脸上下载。
我们抓取并提炼出这俩模型的一些特点:
Meta 首批 MoE 架构模型
这是 Llama 系列,第一批使用 MoE(混合专家模型)构建的模型。
中杯 Llama 4 Scout 有 17B 激活参数,拥有 16 个专家模型。
大杯 Llama 4 Maverick 拥有 17B 激活参数,拥有 128 个专家模型。
至于还没和大家正式见面的超大杯 Llama 4 Maverick,拥有 288B 激活参数,拥有 16 个专家模型。
非常长 ———— 的上下文
Llama 4 系列,均具有很长的上下文窗口。
这一点主要体现在 Meta 公布的中杯 Llama 4 Scout 的详细数据里:
Llama 4 Scout 提供了行业领先的 100 万上下文窗口。
经过预训练和后训练,Llama 4 Scout 长度为 256K,这使基本模型具有高级长度泛化能力。
这个配置,让它在广泛的测评集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的结果更优秀。
它在「大海捞针」测试上的表现如下:
结果如下:
那么之前的 Llama 系列模型的上下文窗口情况呢?
Llama 1,上下文窗口为 2k;
Llama 2,上下文窗口默认为 4k,但可以通过微调等可以拓展到 32k;
Llama 3,上下文窗口是 8k,后来 Llama 3.1 的长文本能力拓展到了 128k。
Meta 官方博客中是这么写的:
(Llama 4 的长上下文)开辟了一个充满可能性的世界,包括多文档摘要、解析广泛的用户活动以执行个性化任务以及对庞大的代码库进行推理。
原生多模态设计
Llama 4 系列,开启了 Llama 的原生多模态时代。
而已经公开对外的中杯和大杯,被官方称为“轻量级原生多模态模型”。
给用户的体验就是,上传一张图片,可以直接在对话框中提问关于这张图片的各种问题。
不是我说,Llama 终于长眼睛了!!!
还没有评论,来说两句吧...