罕见病(rarediseases),指的是那些发病率低、患病人数少的疾病,又称“孤儿病”,全世界范围内发现的罕见病超过种。依据WHO估算,罕见病为患病人数占总人口的0.65‰~1‰的疾病,全球受罕见病影响的人群约占全球人口的1/15?。中国已有超过万罕见病患者,每年新出生罕见病患者超过20万。医疗资源严重不平衡,再加上罕见病在临床的知晓度很低,能够得到明确诊断的患者不到40%。?
罕见病是一个全人类所共同面临的医学问题,约有80%的罕见病与基因有关;超过50%的罕见病从儿童时期开始发病;仅有5%的罕见病有一些治疗方法;但是,迄今为止,没有一种罕见病可以被治愈。罕见病更是一个日益显现的社会问题。从年开始,我国开始重视罕见病的诊疗工作,年国家五部委联合公布了《第一批罕见病目录》,包括了种罕见病;年国家卫生健康委员会印发了《罕见病诊疗指南(年版)》。
为什么罕见病的诊疗面对如此困境了,主要与以下几个方面有关:
(1)缺乏对罕见病的全面认识,诊断标准不明确,没有官方临床指南,导致对真实疾病发病率的低估;
(2)资金缺乏妨碍了基础和临床研究;
(3)患者人数少且地域分散,同时缺乏特定的编码系统,影响相关临床研究中的患者招募,从而导致临床试验难以开展;
(4)对疾病的病理生理学和自然史的认识不足,再加上验证的结果和疾病特定的生物标志物不足,都延迟了临床试验的建立;
(5)与药品研发(R&D)成本高,孤儿药品市场小,相关的制药公司的利益有限。
尽管存在所有这些挑战,但新技术的发展,例如借助二代测序(NGS)进行的基因组分析和其他“组学技术”,都促进了罕见病的诊断和分子理解。从这些技术中检索到的信息表示需要选择,分析和集成的数据大量增加。这个“大数据”时代为罕见病研发中的疗法研发提供了巨大的机会,但也带来了重大的数据管理和伦理挑战。
随着AI的快速发展,罕见病的诊疗也开始借助AI的力量,在罕见病的诊断(例如对序列病原体变异进行分析和分类)以及药物发现和临床前研究(例如新分子设计、减少动物试验、药物相互作用)中AI算法也在不断得到应用,包括(a)诊断和预后,(b)疾病分类和特征,(c)治疗方法,以及(d)患者登记和健康记录等多个方面,那么今天让我们一起学习一下AI如何助力罕见病的诊疗。
?
?
研究简介
论文标题:ArtificialIntelligence(AI)inRareDiseases:IstheFutureBrighter??
发表杂志:Genes
在线日期:年11月
作者:SandraBrasil,CarlotaPascoal,RitaFrancisco,VanessadosReisFerreira,PaulaA.Videira,andGon?aloValad?o?
主要单位:
1.PortugueseAssociationforCDG,-Lisboa,portugal;
2.CDGAllies—ProfessionalsandPatientAssociationsInternationalNetwork
3....
1罕见病的预测:诊断和预后
(1).突变检测和/或预测:疾病相关基因和突变的识别对于诊断和疾病预测至关重要。NGS,特别是全外显子组测序(WES)和全基因组测序(WGS),现在已经在罕见病的诊断和研究实验室中得到了广泛的应用,这些技术的进步使其价格降低且不可或缺,但对发现的新变体效果的解释仍然是一个挑战。
这些突变主要包括单核苷酸变异(SNV,SingleNucleotideVariants?)、剪切与多基因突变(SlicingandMultigenicMutations?)、拷贝数目变异分析(CopyNumberVariationAnalysis?)、基因型-表型整合分析(Genotype–PhenotypeIntegration?)等。
如下表格所列,在罕见病的突变分析中,AI和机器学习的方法可以有效地预测疾病基因和突变类型,并考虑不同的辅助措施(例如表型),从而加速和提高诊断的准确性。?
?
(2)表型和生化印记驱动的诊断?:虽然医学已经进入了NGS的基因组时代,但许多疾病的分子病因往往很难确定。因此,临床表型是准确、快速诊断罕见病的宝贵资源。电子病历(EHR)和生物医学文献包含了广泛的临床信息,在决策支持系统(DSS)的发展中具有巨大的潜力。?主要包括基于表型的诊断(Phenotype?-DrivenDiagnosis)、基于图像的辅助诊断决策系统(Imaging-BasedDDSS?)以及生化印记诊断(BiochemicalFingerprinting?)。总之,AI可以集成诊断辅助决策系统(DDSS)开发的一个或几个阶段:从图像识别和挖掘以及表型术语的注释到疾病的排名和预测,并对生化驱动的诊断产生积极影响,从而改善对罕见病的诊断。?
(3)预后标志物:在滑膜肉瘤(SS,ORPHA:)患者应用了新型的生存预测深度学习算法(包括随访失败),这种新算法比基于二进制分类的传统NN以及Cox比例风险模型(癌症生存预测的金标准方法)的性能要好。在软组织肉瘤中使用了复杂的AI算法框架,包括t分布随机邻居嵌入聚类、深度神经网络(使用主成分分析(PCA),RF,k近邻和调节网络)来识别新型诊断和预后标志物以及潜在的治疗靶标。此外,不同ML方法的应用提高了对稀有癌症的认识。这些工具不仅可以预测疾病的诊断/预后,还可以模拟治疗选择,从而指导更好的个性化治疗。?
2罕见病分类和表征分析
(1)罕见病发病机制研究:揭示潜在的受影响遗传和分子因素、途径对于疾病理解和治疗靶标选择至关重要。然而,基因表达异常检测及其与分子机制和临床表型的相关性是长期存在的ML挑战。通过特征回归和分类进行操作的特征性系统表达异常(CSAX)数据应用于一组18三体(ORPHA:)样本。CSAX数据确定了与牙齿发育、免疫过程和糖皮质激素代谢有关的10个最重要的基因,这与所描述的临床表型一致。从罕见病的基础研究中得出的小型数据集对ML具有挑战性。为了克服这个问题,Taroni等人诉诸公开可用的基因表达数据库(recount2),并训练了一种具有多种疾病的途径水平的信息提取矩阵分解框架(MuliPLIER),当将其应用于罕见病数据集时(特别是系统性红斑狼疮(ORPHA:)、肉芽肿合并多血管炎(ORPHA:)、显微镜下的多发性血管炎(ORPHA:)和嗜酸性肉芽肿合并多血管炎(ORPHA:),MultiPLIER可以描述生物学途径比使用特定疾病数据集训练的模型性能更佳。
(2)罕见病分类和表征:由于罕见病的数据缺乏、复杂性和异质性,以及临床表现重叠和罕见,对正确的疾病分类提出了挑战。通常,疾病分类包括大量、连续且昂贵的临床和实验室检查。AI和ML代表了检测和学习低频模式的解决方案,提供了自动分类功能,有助于正确的治疗建议。
特征挖掘算法(CFML,characteristicfeatureminingalgorithm?)通过欧洲骨骼发育不良网络发现了15种骨骼发育不良疾病的关键特征。尽管该算法显示出较低的平均精度(26.73%)和召回率(24.68%),但仍不及用于类关联规则挖掘的标准算法。此外,CFML选择的标志性特征在15种疾病中的12种有区别。最近,使用欧洲发作性睡病网络数据建立了随机梯度增强型发作性睡病1型(ORPHA:)与类型2(ORPHA:)的分类器。它确定了15种有影响力的预测因子(99%的准确性,敏感性和特异性),其中一些不包括在当前的发作性睡病分类标准中。重要的是,回顾唯一一个分类错误的病例,发现了先前由临床医生做出的错误诊断。
为了更好地理解罕见病而采用表型阐明的独特方法,需要使用深度学习方法来阐明疾病与残疾之间的关系。深度神经网络被应用于人工标注的罕见病领域中与残障相关的术语。这种方法不仅以81%的F值检测了与残疾相关的术语,而且通过无监督学习,以75%的准确性建立了残疾与疾病之间的关系。
3治疗策略
目前,只有约5%的罕见病患者接受了治疗,在常见疾病的治疗发现中获得令人鼓舞的结果的支持下,AI是该领域潜在的变革者。
(1)药物重新定位?:重新定位药物(一种确定已批准或正在研究的药物的新治疗用途的策略)作为一种更快、更安全、更便宜的方法,尤其是在罕见病中,正获得越来越多的动力。AI已经成为一种非常吸引人的工具,可以促进罕见病药物的重新利用。
有研究者利用ML统一计算框架URSAHD(用于人类疾病的RNA样本注释),该模型整合了有关数千种复杂疾病的遗传和分子信息,以测试药物的用途。根据常见/可治疗和罕见/不可治愈疾病之间的标志性过程和机制相似性,URSAHD能够预测顺铂是难治性贫血伴过量母细胞的治疗剂(ORPHA:),白藜芦醇可作为铁粒母细胞性贫血的潜在候选者(ORPHA:)治疗。两项研究中由算法得出的预测都必须经过实验验证,即使仍有很大的改进空间,AI仍可以充当药物发现的驱动器。?
(2)临床试验:临床试验对于治疗的发展至关重要。尽管如此,由于以下原因,只有一小部分罕见病具有CT:(i)难以识别和招募患者;(ii)与人口少的数据获取和分析有关的挑战;(iii)缺乏可靠的生物标志物等。AI可以为罕见病临床试验的这些障碍提供解决方案。
a)病人招募和鉴定:四种数据挖掘可计算表型算法在EHR中的应用确定了名小儿新发肺动脉高压(PH,ORPHA:)?。这种方法的其他主要优点是:(i)它允许连续招募患者;(ii)一旦被验证,就可以转移到其他环境。
b)生物标志物:可靠的生物标志物有助于鉴定正常过程与致病过程,和/或评估对治疗方法或其他干预措施的反应,这对治疗的发展至关重要。在用于肌萎缩性侧索硬化症(ALS,ORPHA:)?的油酸肟试验中,将Biosigner算法(使用偏最小二乘判别分析,RF和SVM)应用于药代动力学方法,可以看出对照组和治疗组之间的代谢谱存在差异,它还认为鞘磷脂是最相关的疾病进展标志物。此外,在West综合征(ORPHA:)患者中,使用该算法可将丝氨酸和未知代谢物(X)鉴定为潜在的疾病生物标志物。因此,从早期代谢组学概况到药物代谢组学的疾病进展预测代表了生物标志物检测的有希望的途径。
4患者健康登记和病历?
随着健康记录和患者注册表中患者数据的呈指数增长,越来越多的更好的命名实体识别(Namedentitiesrecognition,NER?)NER方法必不可少。NER是识别原始文本中各种术语语义类别(例如,基因,蛋白质和疾病)的过程,这是知识发现和数据挖掘过程的第一步。然而,对于罕见病,由于条件的稀有性、复杂的术语以及文档或数据库之间的编码或标记不一致而引起的挑战。此外,作者特定的医学术语、缩写和EHR中的语法错误进一步阻碍了生物医学NER。事实证明,递归神经网络有利于自动化临床编码,提高了罕见病在层次结构医学知识中的表示率。
对于NER疾病,有研究者通过使用正向和反向疾病标签,结合模糊匹配实现了一种集成的集成方法。此外,他们开发了一个内部疾病词典,结合了多个数据库并增加了罕见病表示。通过包括逆向模型,他们用其他NER方法确定的复杂名称标识罕见病。最近,还有研究者开发了Dic-Att-BiLSTM-CRF(DABLC),一种备受