山东理工大学等构建 PlantLncBoost 模型 突破植物 lncRNA 鉴定难题

日期:2025-06-18 17:08:17 / 人气:5


在植物科学领域,长非编码 RNA(lncRNA)对植物生长发育和环境适应意义重大,但因其在不同物种间序列保守性差,给鉴定带来挑战。早期工具如 CPC 和 CPAT 在跨物种鉴定时准确率大幅下降,现有研究对特征工程优化也不足。
山东理工大学联合多国科研机构组成跨学科团队,整合多源异构植物转录组数据,从 24,152 条 lncRNA 和等量 mRNA 序列构建训练集,并经预处理形成纯净数据集。同时构建综合测试集和高置信度实验验证集,用于严格检验模型跨物种泛化能力。
团队聚焦模型选择、超参数优化与特征工程,将 219 个新型序列描述符纳入特征空间,通过递归特征消除算法筛选出 3 个核心参数。算法选择时,CatBoost 在多项指标优于 XGBoost 和 LightGBM,超参数优化耗时短、效率高。特征选择采用随机森林重要性策略,确定仅 3 个特征时模型性能最佳。
最终构建的 PlantLncBoost 模型整合 CatBoost 算法和三大核心特征优势,在十折交叉验证中多项指标超越主流工具。多层次实验验证显示,该模型在跨物种预测和高可信度验证中稳定性与准确性卓越,突破传统模型性能瓶颈。
在植物 lncRNA 研究领域,高校科研与企业创新协同发展。北京大学团队阐明非编码 RNA 同源基因转录抑制机理;法国团队发现 lncRNA 调控拟南芥春化反应新靶点;剑桥大学团队建立植物单细胞 lncRNA 数据库。企业方面,孟山都、先正达、贝纳基因等将前沿技术应用于农业,推动作物改良等发展。未来,随着研究深入和技术进步,有望进一步揭示植物 lncRNA 作用并实现成果转化,助力农业可持续发展。
上述内容梳理了 PlantLncBoost 模型的研究全貌与行业发展态势。若你想对内容进行增删、调整表述风格,欢迎随时告诉我。

作者:杏鑫娱乐




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 杏鑫娱乐 版权所有