出门问问开放大模型“序列猴子”开源数据集
站长之家 · 2024-02-27 01:09:27 · 热度:加载中...
站长之家(ChinaZ.com) 2月26日 消息:出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。

  站长之家(ChinaZ.com) 2月26日 消息:出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。

  序列猴子,作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。

  为了推动大语言模型技术的持续进步,出门问问决定将其部分训练数据集进行开源。这次开源的“序列猴子开源数据集1.0”包括中文通用文本语料、古诗今译语料以及文本生成语料,这些数据资源都经过精心挑选和整理,以确保其高质量和易用的数据格式。同时,公司采用了宽松的许可协议,为广大的开发者和研究人员提供了便捷的使用条件。

  出门问问希望通过这一行动,吸引更多的人才和团队参与到大语言模型的研究与应用中来,共同推动这一前沿技术的持续进步。公司坚信,开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。

  项目地址:https://github.com/mobvoi/seq-monkey-data

  (举报)

本文来源:站长之家