中国农业大学王喜庆教授团队联合发布首个种业大语言模型“丰登”(SeedLLM)
发布日期:2024-04-28 浏览次数:  信息来源:生物学院

4月28日,中国农业大学生物学院王喜庆教授团队联合上海人工智能实验室崖州湾国家实验室发布首个种业大语言模型丰登SeedLLM)。

“丰登”集成了先进的人工智能技术(书生浦语2.0)与大数据分析,通过深入学习我国迄今发布的科研文献、科技书籍、种企报告和历史推广数据,以用户友好的互动方式,可解答有关作物品种选育推广、栽培技术以及种业企业状况等问题。“丰登”大模型技术的运用不仅填补了我国在种业专业领域的大模型空白,同时也是对我国育种领域采纳新技术的一次大胆尝试。

“粮食安全是国家安全的重要基础”。“丰登”提高了获取种业信息的工作效率并降低了育种知识的学习门槛,对振兴种业,推广育种知识,促进科学研究有重要意义。

相较于国内外其他大语言模型,“丰登”重点关注生物育种,尤其我国主要粮油作物和肉禽动物,对维护国家粮食安全有积极意义。“丰登”旨在支持用户在品种选育、农艺性状、栽培技术和推广区域四大核心领域提供准确的解释和回答。该模型具有4大核心能力:

1. 整合分散的知识资源:系统深度挖掘并结构化我国在育种领域迄今积累的包括学术文献、书籍、田间日志在内的广泛知识。

2. 跨领域知识融合:利用多学科知识图谱,整合了作物学、生物学、大气科学、农业资源与环境等相关领域的知识,发掘这些领域之间的新联系。

3. 提高访问效率:通过自然语言对话接口降低了技术门槛,用户可以直接提出问题并迅速获得易于理解的答案。这种对话方式确保了信息的实时性和高效获取,极大提高了工作效率。

4. 知识共享与传播:不仅服务于育种专家和科研人员,也向全国的农业工作者提供必要的支持,加速了育种知识的广泛传播和应用。

 

为了全面评估“丰登”在育种领域的专业性能,团队组织了国际首个种业领域的标准化人工评估评测。通过育种专家整理的专业育种问题对大语言模型的性能进行了一系列量化基准测试,发布了首个种业大语言模型评测标准。

基准评测共计115位参与者,包括14名国内水稻育种专家、49名育种相关专业研究生和52名本科生(大三及以上)。评估团队制定了一套育种标准问答数据集,并通过详细的排序和打分机制,对“丰登”的回答在准确性、稳定性和推理能力等方面进行了细致评价。评估结果表明,丰登在最佳答案个数和综合分数上的表现均超出预期,综合得分是本科生的4.87倍,而且在多个评估维度上超越了国际领先水平Anthropic Claude3和OpenAI GPT-4。这些结果充分证明了种业大语言模型在理解和处理水稻育种相关知识方面的卓越能力。

 

目前,“丰登”大语言模型现已拥有超过200亿参数,已开放水稻相关知识的测试接口申请。首批参与测试的单位包括隆平高科、正大集团、中国科学院、中国农业科学院、上海市农业科学院、广东省农业科学院、华中农业大学、华南农业大学、复旦大学等。欢迎更多研究机构和企业加入这一测试阶段,申请入口,以更广泛地验证和优化系统性能。我们诚邀国内育种领域各单位参与研发,提供高质量语料,涵盖更多品种,助力中国种业。

有兴趣参加测试和参与研发的单位,请通过联系我们以获取更多信息。

联系方式:

中国农业大学        王博士  wangxq21@cau.edu.cn

上海人工智能实验室  董博士  dongnanqing@pjlab.org.cn 

崖州湾国家实验室    杨博士  yangfan@yzwlab.cn


【打印本页】 【关闭本页】