open-llms - 🤖 可用于商业用途的开放LLM列表。

Created at: 2023-05-06 00:35:37
Language:
License: Apache-2.0

开放法学硕士

这些LLM都授权用于商业用途(例如,Apache 2.0,MIT,OpenRAIL-M)。欢迎投稿!

语言模型 上映日期 检查站 论文/博客 参数 (B) 上下文长度 授权协议
T5 2019/10 T5 & Flan-T5, Flan-T5-xxl (HF) 使用统一的文本到文本转换器探索迁移学习的极限 0.06 - 11 512 Apache 2.0
UL2 2022/10 UL2 & Flan-UL2, Flan-UL2 (HF) UL2 20B:开源统一语言学习者 20 512, 2048 Apache 2.0
脑-GPT 2023/03 脑-GPT Cerebras-GPT:一系列开放的、计算高效的大型语言模型论文)) 0.111 - 13 2048 Apache 2.0
开放助手(皮提亚家族) 2023/03 OA-皮西亚-12B-SFT-8, OA-皮提亚-12B-SFT-4, OA-皮提亚-12B-SFT-1 大众化大型语言模型对齐 12 2048 Apache 2.0
皮提亚 2023/04 皮提亚 70M - 12B Pythia:用于跨训练和扩展分析大型语言模型的套件 0.07 - 12 2048 Apache 2.0
洋娃娃 2023/04 多莉-v2-12b 免费多莉:推出世界上第一个真正开放的教学调整LLM 3, 7, 12 2048 MIT
德莱特 2023/05 dlet-v2-1_5b 宣布推出DLite v2:可以在任何地方运行的轻量级开放式LLM 0.124 - 1.5 1024 Apache 2.0
RWKV 2021/08 RWKV, ChatRWKV RWKV 语言模型(和我的 LM 技巧) 0.1 - 14 无限 (RNN) Apache 2.0
GPT-J-6B 2023/06 GPT-J-6BGPT4All-J GPT-J-6B:6B 基于 JAX 的变压器 6 2048 Apache 2.0
GPT-新X-20B 2022/04 GPT-NEOX-20B GPT-NeoX-20B:开源自回归语言模型 20 2048 Apache 2.0
绽放 2022/11 绽放 BLOOM:一个 176B 参数的开放访问多语言语言模型 176 2048 OpenRAIL-M v1
稳定LM-阿尔法 2023/04 稳定LM-阿尔法 Stability AI推出其首个StableLM语言模型套件 3 - 65 4096 CC BY-SA-4.0
快聊-T5 2023/04 快聊-t5-3b-v1.0 我们很高兴发布FastChat-T5:我们紧凑且商业友好的聊天机器人! 3 512 Apache 2.0
h2oGPT 2023/05 h2oGPT 构建世界上最好的开源大语言模型:H2O.ai的旅程 12 - 20 256 - 2048 Apache 2.0
MPT-7B 2023/05 MPT-7BMPT-7B-指令 介绍MPT-7B:开源,商业上可用的LLM的新标准 7 84k (阿里比) Apache 2.0, CC BY-SA-3.0
红睡衣-煽动 2023/05 红睡衣-煽动 发布3B和7B RedPajama-INCITE系列模型,包括基础,指令调整和聊天模型 3 - 7 2048 Apache 2.0
OpenLLaMA 2023/05 OpenLLaMA-7b-preview-300bt OpenLLaMA:LLaMA的开放复制品 7 2048 Apache 2.0

打开LLM以获取代码

语言模型 上映日期 检查站 论文/博客 参数 (B) 上下文长度 授权协议
圣诞老人 待办事项 圣诞老人 圣诞老人:不要伸手去摘星星! 1.1 2048 OpenRAIL-M v1
星码器 待办事项 星码器 StarCoder:最先进的代码法学硕士,StarCoder:愿源代码与你同在! 15 8192 OpenRAIL-M v1
星聊阿尔法 待办事项 淀粉-α 使用 StarCoder 创建编码助手 16 8192 OpenRAIL-M v1
重装代码 待办事项 回复代码-v1-3b 在1周内培训SOTA代码LLM并量化共鸣 - 与Replit的Reza Shabani一起 2.7 无限?(阿里比) CC BY-SA-4.0
代码生成2 待办事项 代号2 1B-16B CodeGen2:编程和自然语言法学硕士培训课程 1 - 16 2048 Apache 2.0

开放LLM数据集以进行预训练

名字 上映日期 论文/博客 数据 代币 (T) 许可证
星码器数据 2023/05 StarCoder:最先进的代码法学硕士 星码器数据 0.25 Apache 2.0
红睡衣 2023/04 RedPajama是一个创建领先开源模型的项目,首先复制超过1.2万亿个代币的LLaMA训练数据集。 红睡衣数据 1.2 Apache 2.0

打开LLM数据集以进行指令调整

名字 上映日期 论文/博客 数据 样品 (K) 许可证
MPT-7B-指令 2023/05 介绍MPT-7B:开源,商业上可用的LLM的新标准 dolly_hhrlhf 59 CC BY-SA-3.0
数据砖-多莉-15k 2023/04 免费多莉:推出世界上第一个真正开放的教学调整LLM 数据砖-多莉-15k 15 CC BY-SA-3.0
OIG(开放指令通才) 2023/03 OIG 数据集 监察长办公室 44,000 Apache 2.0

打开 LLM 数据集以进行对齐调整

名字 上映日期 论文/博客 数据 样品 (K) 许可证
开放助手对话数据集 2023/04 OpenAssistant 对话 - 大众化大型语言模型对齐 绿洲1 161 Apache 2.0

开放法学硕士的评估


许可证是什么意思?

  • Apache 2.0:允许用户出于任何目的使用软件,分发、修改软件以及根据许可条款分发软件的修改版本,而无需支付版税。
  • MIT:类似于Apache 2.0,但更短,更简单。此外,与 Apache 2.0 相比,不需要对原始代码进行任何重大更改。
  • CC BY-SA-4.0:允许 (i) 复制和重新分发材料,以及 (ii) 出于任何目的(甚至是商业目的)重新混合、转换和构建材料。但是,如果你执行后者,则必须在与原始许可证相同的许可证下分发你的贡献。 (因此,对于内部团队来说可能不可行。
  • OpenRAIL-M v1:允许免版税访问和灵活的下游使用以及模型的共享和修改,并附带一组使用限制(参见附件A)

免責聲明:本回购中提供的信息不构成,也不打算构成法律建议。此存储库的维护者不对使用这些模型的第三方的行为负责。在将模型用于商业目的之前,请咨询律师。


改进

  • [x] 完成上下文长度的条目,并检查条目
    ?
  • [ ] 添加训练的代币数量?(请参阅注意事项)
  • [ ] 添加(链接到)训练代码?
  • [ ] 添加(链接到)评估基准?