简单看了下最近又一个强大的 LLM:DBRX,databricks 出品,之前他们出了 dolly 系列模型,当时声称是世界上第一个 Truly Open Instruction-Tuned LLM,说到做到,公开数据集,公开代码,公开模型。
ok 说回 DBRX:
1. 这次放出了两个版本:base 和 instruct。
2. MoE 结构,参数量 132 B,4×33B,16个 fine-grained 专家模型,4个激活,Mixtral 和 Grok-1则是8/2。
3. 超越 gpt3.5,competitive with Gemini 1.0 pro。
4. 由于 fine-grained 专家模型(更多更小),推理速度比 LLaMA2-70B 快 2 倍,在总参数和活跃参数计数方面大约是 Grok-1 的 40%。
5. 具体结构方面,RoPE + gated linear units (GLU) + grouped query attention (GQA) + GPT4 tokenizer(tiktoken)。
6. 使用3072 NVIDIA H100s 进行训练。
7. 整个流程(预训练、后训练、评估、红队测试和改进)持续了3个月。
8. 在 hf 上获取 base 权重需要人工审核,而且似乎很多人都还没通过。而 instruct 则是自动通过的。
9. 附图是与其他开源闭源模型在各种数据集上的评测对比。
www.databricks.com