生物学杂志 ›› 2025, Vol. 42 ›› Issue (5): 67-.doi: 10.3969/j.issn.2095-1736.2025.05.067
孟祥波, 李 岑, 苑成武, 刘夫锋, 路福平, 彭 冲
MENG Xiangbo, LI Cen, YUAN Chengwu, LIU Fufeng, LU Fuping, PENG Chong
摘要: 针对信号肽引导异源蛋白分泌效率规律性差的问题,使用枯草芽孢杆菌来源信号肽引导异源蛋白分泌的相关数据建立8个数据集,基于支持向量机和随机森林算法构建信号肽分泌效率预测模型。通过数据集、序列特征以及算法的不同组合,共建立458个分类模型和228个回归模型。其中,使用随机森林算法在α-淀粉酶数据集上获得最佳分类效果,准确度可以达到83.21%;随机森林回归算法在α-淀粉酶数据集中获得效果最好的回归模型,该模型的决定系数为0.43。此外,还分析了高分泌效率和低分泌效率信号肽的氨基酸组成和GC3含量(G和C出现在密码子第3个位置的频率)的差异,发现高分泌效率的信号肽具有较多的不折叠氨基酸且具有较高的GC3含量。研究实现了对信号肽分泌效率的预测,并且探究了影响信号肽分泌效率的因素。
中图分类号: