发布时间:2023-12-08
CRISPR是生物工程的强大工具,用于修改遗传密码以提高生物体的性能或纠正突变。CRISPRCas9工具依赖于一个独特的向导RNA,指导Cas9酶结合并切割基因组中相应的目标位点。
现有的计算预测CRISPR工具有效向导RNA的模型仅基于来自少数模型物种的数据,当应用于微生物时,效率较弱且不一致。
“许多CRISPR工具都是针对哺乳动物细胞、果蝇或其他模型物种开发的。很少有针对染色体结构和大小差异很大的微生物的研究,”橡树岭国家实验室合成生物学组组长CarrieEckert说。
“我们观察到,设计CRISPRCas9机制的模型在处理微生物时表现不同,这项研究验证了我们所知道的轶事。”
为了改进向导RNA的建模和设计,橡树岭国家实验室的科学家们寻求更好地了解储存遗传物质的细胞核的最基本水平上发生的情况。
他们转向量子生物学,这是一个连接分子生物学和量子化学的领域,研究电子结构对核苷酸化学性质和相互作用的影响,核苷酸是构成DNA和RNA的分子。
ORNL计算系统生物学家EricaPrates表示,电子在分子中的分布方式会影响反应性和构象稳定性,包括Cas9酶引导RNA复合物有效与微生物DNA结合的可能性。
决策森林的最佳指南
科学家们建立了一个可解释的人工智能模型,称为迭代随机森林。他们在包含大约50,000个针对大肠杆菌基因组的引导RNA的数据集上训练了模型,同时还考虑了量子化学特性,采用《核酸研究》杂志中描述的方法。
该模型揭示了核苷酸的关键特征,可以帮助选择更好的引导RNA。Prates说:“该模型帮助我们确定了支撑指导RNA效率的分子机制的线索,为我们提供了丰富的分子信息库,可以帮助我们改进CRISPR技术。”
ORNL研究人员通过使用模型选择的一大组向导对大肠杆菌进行CRISPRCas9切割实验,验证了可解释的AI模型。
该论文的第一作者、前ORNL计算系统生物学家JaclynNoshay表示,使用可解释的人工智能让科学家们了解了驱动结果的生物机制,而不是根植于缺乏可解释性的“黑匣子”算法的深度学习模型。。
“考虑到跨[生物]界训练的模型的不兼容性,我们希望提高对指南设计规则的理解,以微生物物种为重点,实现最佳切割效率,”Noshay说。
这个可解释的人工智能模型具有数千个特征和迭代性质,是使用ORNL橡树岭领导计算机设施(OLCF)(美国能源部科学办公室用户设施)的Summit超级计算机进行训练的。
Eckert表示,她的合成生物学团队计划与ORNL的计算科学同事合作,利用他们在新的微生物CRISPRCas9模型中学到的知识,并利用实验室实验或各种微生物物种的数据进一步改进它。
适用于每个物种的更好CRISPRCas9工具
考虑量子特性为每个物种的Cas9指南改进打开了大门。“这篇论文甚至对整个人类都有影响,”埃克特说。“如果你正在研究任何类型的药物开发,例如,你使用CRISPR来靶向基因组的特定区域,你必须拥有最准确的模型来预测这些指导。”
完善CRISPRCas9模型为科学家提供了更高通量的管道,将基因型与表型、或基因与物理特征联系起来,这一领域被称为功能基因组学。这项研究对ORNL领导的生物能源创新中心(CBI)的工作具有重要意义,例如,改进生物能源原料工厂和生物质的细菌发酵。
“通过这项研究,我们大大提高了对向导RNA的预测,”埃克特说。“我们对起作用的生物过程了解得越多,我们可以为预测提供的数据越多,我们的目标就会越好,从而提高我们研究的精度和速度。”
“我们研究的一个主要目标是提高使用CRISPR工具预测性修改更多生物体DNA的能力。这项研究代表着我们在了解如何避免在生物体遗传密码中犯下代价高昂的“打字错误”方面取得了令人兴奋的进展,”橡树岭国家实验室的保罗·亚伯拉罕(PaulAbraham)说,他是一位生物分析化学家,负责美国能源部基因组科学项目的安全生态系统工程和设计科学重点领域,或SEEDSFA,支持CRISPR研究。
“我渴望了解,随着我们生成额外的训练数据并继续利用可解释的人工智能模型,这些预测可以改进多少。”
该项目的资金由SEEDSFA和CBI(两者都是DOE科学生物和环境研究计划办公室的一部分)、ORNL的实验室导向研究和开发计划以及OLCF和Compute的高性能计算资源提供和科学数据环境,两者也都得到科学办公室的支持。
德克萨斯大学巴特尔分校为美国能源部科学办公室管理橡树岭国家实验室,该办公室是美国物理科学研究的最大支持者。科学办公室正在努力解决我们这个时代一些最紧迫的挑战。欲了解更多信息,请访问energy.gov/science。