[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结,觉得技术报告太长懒得看的可以看看:
◆这个模型的架构(architecture)和llama非常相似。
◆7B模型使用了惊人的6T tokens!
◆词汇量巨大。
◆在前馈神经网络(FFN)中使用了GeGLU,我希望他们能对那里使用的维度进行更深入的分析。一般人倾向于使用维度的4倍,但我更喜欢2.5-3倍之间。
◆他们使用三明治规范化(Sandwich-Norm)让我感到意外,我认为Normformer在位置编码上更为高效。
◆采用了16路模型分片和16路数据分片的方法:我需要学习他们是如何配置这些设置的,以及如何确保训练性能最优化。
◆我本希望了解他们使用了哪种精确度(bfloat16?还是注意力logits转换为float32?)。
◆他们使用的是哪种优化器?难道只有我在使用Shampoo吗?
关于测试7b模型的体验:
◆我喜欢预训练模型未经审查的特点。它表现非常出色,可能是下游任务微调的极佳选择。
◆我发现微调后的模型确实很好,但比mistral-7b-instruct-v0.2更加审查过滤。
◆在我的一些用例(如Craiyon的提示)中,我发现Mistral的效果更佳。我认为gemma的指导模型可能过度微调了。我希望Mistral指导模型的创建配方是公开的,这样我们就可以将其应用到gemma的预训练模型上。我需要测试其他开源的指导型变体(我并不完全相信基准测试,除了lmsys)。
◆我希望模型的安全性处理可以与指导模型分开,这样我们就可以拥有一些未经审查的指导模型,同时通过类似llama guard的模型来处理安全性,避免对模型本身造成干扰。
◆我认为这些模型将对JAX生态系统大有裨益,因为迄今为止开源的大语言模型(LLM)实现大多是基于Pytorch的。我迫不及待地想要重新深入研究Keras!
◆我非常高兴这些模型的权重被发布出来,并且我们得到了一些技术细节,而不仅仅是展示其能力的橱窗 🙏。
来源:
x.com