近日,信息工程学院李富义教授团队在蛋白酶特异性底物裂解位点预测方面取得重要研究进展,研究论文“ ProsperousPlus : a one-stop and comprehensive platform for accurate protease-specific substrate cleavage prediction and machine-learning model construction”在线发表于《 Briefings in Bioinformatics 》。信息工程学院李富义教授为第一作者和通讯作者,美国弗吉尼亚联邦大学计算机科学系Lukasz Kurgan教授和澳大利亚蒙纳士大学生物化学与分子生物学系宋江宁副教授为并列通讯作者。
蛋白酶作为一类有生物催化作用的特殊蛋白质,与其特定底物(蛋白质)中的肽键发生水解作用来催化相关底物的分解。在许多发育和生理过程中起着关键作用,包括细胞周期、调节通路和蛋白质降解等。此外,研究表明蛋白酶的失调与许多疾病有着密切的关系。大部分蛋白酶具有高度的底物裂解特异性,只会切割呈现结构特征和氨基酸序列模式的适当组合的目标底物。因此,了解蛋白酶的特异性底物裂解是准确了解蛋白酶功能机制的基础。蛋白酶的底物特异性通常可以通过肽特异性分析或高通量质谱技术来识别,但实验手段鉴定蛋白质裂解比较困难、耗时且成本很高,因此开发成本效益高的计算方法和工具作为实验工作的补充具有重要的价值。在此背景下,识别蛋白酶潜在靶底物的计算方法和工具可以帮助有效发现新的底物蛋白质或者裂解位点,并且指导蛋白酶—底物相互作用的假设驱动实验研究。
本研究从MEROPS数据库中收集了110种蛋白酶的底物裂解位点数据并构建基准数据集,利用多种序列打分函数和序列编码方式生成蛋白质序列的多样性特征集,提出了一个自动机器学习(AutoML)框架,研发了基于机器学习算法的蛋白酶特异性底物裂解位点预测的综合计算平台 ProsperousPlus 。
图1 ProsperousPlus 模型框架图
为进一步研究裂解位点的多样性特征集预测能力以及蛋白酶特异性的关键特征,本研究使用无监督聚类算法分析了6种蛋白酶对应的8个序列打分函数产生的17个序列分数特征,并对 ProsperousPlus 模型进行可解释性分析。分析发现,本研究使用的序列分数特征对于预测不同类型的蛋白酶裂解位点非常有效,其中KNN、NNS、WLS和IC50等特征在多种酶的裂解位点预测方面有着突出的贡献。这可能是由于打分函数善于捕获特定的基序、段保守序列或在序列的生物活性中起关键作用的功能域。此外,本研究对比了ProsperousPlus 和现有方法的预测性能,结果表明 ProsperousPlus 在大多数酶中实现了最优的预测性能,展现出具有竞争力的预测性能。
最后,本研究基于PHP和Python研发了免费公开的多功能生物信息学平台。该平台除了具有供用户预测蛋白酶特异性底物裂解位点的预测功能外,还提供了 ProsperousPlus 的自动机器学习(AutoML)框架(训练、评估和选择模型)的训练和部署模型的功能。用户可以使用训练模型功能自定义蛋白酶类型来训练特定的蛋白酶底物裂解位点预测模型,并且在网站部署使用训练好的模型。此外,本研究还提供了 ProsperousPlus 的单机版软件,方便用户在自己的服务器或者计算机上使用。
图2 ProsperousPlus 平台功能
综上, ProsperousPlus 的创新点主要包括三点:
(1) ProsperousPlus 提供了110种蛋白酶的特异性底物位点的预测模型,是目前最全面的预测模型。此外 ProsperousPlus 的AutoML管道能有助于进一步扩展其他蛋白酶类型的模型。
(2) ProsperousPlus 基于团队在这一领域的包括PROSPERous, iProt-Sub,DeepCleave和Procleave等平台的积累,提供了更优异的预测性能。
(3) ProsperousPlus提供了在线预测平台和单机版开源软件,通过满足不同类型用户的需求来提高 ProsperousPlus 的影响力。在线预测平台发布以来已收到来自十多个国家的超过700次的计算任务的提交。
本研究得到国家自然科学基金(62202388)、国家重点研发计划(2022YFF1000100),秦创原创新创业人才项目(QCYRCXM-2022-230)和西北农林科技大学高层次人才项目的资助。
原文链接:https://academic.oup.com/bib/article-abstract/24/6/bbad372/7328990?redirectedFrom="fulltext