"); //-->
说到做到,马斯克xAI的Grok,果然如期开源了!
就在刚刚,xAI正式发布3140亿参数混合专家模型Grok-1的权重和架构。
3140亿的参数,让Grok-1成为迄今参数量最大的开源LLM,是Llama 2的4倍。
目前,xAI关于Grok-1没有透露更多信息。
官网放出的信息如下——
- 基础模型在大量文本数据上训练,未针对任何特定任务进行微调。
- 314B参数的MoE,有25%的权重在给定token上处于激活状态。
- 2023年10月,xAI使用JAX和Rust之上的自定义训练堆栈从头开始训练。
一经上线GitHub,Grok就狂揽了6k星,586个Fork。
项目地址:https://github.com/xai-org/grok-1
马斯克还不忘嘲讽OpenAI一番,「告诉我们更多关于OpenAI的「open」部分...」
纽约时报点评道,开源Gork背后的原始代码,是这个世界上最富有的人控制AI未来战斗的升级。
开源究竟会让技术更安全,还是会让它更滥用?
「开源支持者」马斯克,以身作则地卷入了AI界的这场激烈辩论,并用行动给出了答案。
小扎刚刚也对Grok做出了评价,「并没有给人留下真正深刻的印象,3140亿参数太多了,你需要一堆H100,不过我已经买下了」。
一条磁力链,全球首个最大模型开源
这次xAI开源Grok-1,遵守的是Apache-2.0许可证,因此,用户可以自由使用、修改和分发软件。存储库包含了用于加载和运行Grok-1开源权重模型的JAX示例代码。用户需要下载checkpoint,将ckpt-0目录放置在checkpoint中,随后运行以下代码来测试:pip install -r requirements.txtpython run.py
这个脚本会在测试输入上,加载checkpoint和模型中的样本。
由于模型较大,参数达到了314B参数,因此需要具有足够GPU内存的计算机,才能使用示例代码测试模型。而且,由于此存储库中MoE层的实现效率不高,选择该实现是为了避免需要自定义内核来验证模型的正确性。通过Torrent客户端和下面这个磁力链接,就可以下载权重了。magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
- tokenizer词汇量:131,072(于GPT-4类似)相当于2^17
- 嵌入大小:6144(48*128)
- Transformer层:64(每一层都有一个解码层:多头注意块和密度块)
- 键值大小:128密集块(密集前馈块):
- 宽度因子(Widening Factor):8
- 隐藏层大小为32768每个token从8个专家中选出2个。- 上下文长度:8192个token
- 精度:bf16网友:开源争霸战要来
AI社区已经沸腾了!
技术界指出,Grok的亮点是在前向反馈层中使用了GeGLU以及归一化方法,并且使用了有趣的三明治范式技术(sandwich norm technique)。
连OpenAI的员工,都表示了自己对Grok的强烈兴趣。
马斯克为何选择开源?
在数次嘲讽OpenAI是「CloseAI」之后,马斯克果真选择了开源自家大模型。
当然,这背后肯定也有商业上的考量。作为市场领导者的OpenAI,是没有理由开源ChatGPT背后模型代码的。现在,通过发布Grok的代码,马斯克将自己牢牢扎根在后者的阵营中。这一决定,或许能让他的xAI超越Meta和Mistral AI。Llama的开源给Meta带来了很多好处,几乎让小扎从元宇宙的泥潭爬了出来。*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。