当下,人工智能(Artificial Intelligence,AI)制药以医药大数据为基础,运用机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL) 等技术,可以替代大量实验,快速分析药物结构和功 效,从而优化药物研发过程。AI制药从最初的计算机 辅助药物设计发展到如今的AI药物研发,几乎涵盖了 从药物靶点发现到临床试验的全流程。AI在制药产 业的应用十分广泛,包括药物开发、临床试验、生产 监管,以及后续的产品推广与个性化医疗服务等。其 中,药物研发是AI技术在制药环节中的主要内容,涉 及靶点识别与选择、基于结构的药物设计、高通量化 合物筛选和药代动力学分析等。
AI的快速发展正为制药产业带来性的变化,尤其在应对药物研发的高复杂度与长期高成本挑战方 面展现出巨大潜力。通过使用AI技术,新药的研发周期 显著缩短,成本大幅降低,成功率也有很大提升。相比 过去耗时长达15年的新药研发周期,以及10亿~20亿美元的研发平均成本,这一转型尤为关键。AI不仅助力 靶标发现与验证,还在各个环节加速了新药上市的进 程,从先导化合物的识别到优化其结构和功效,乃至临床试验,有效缓解了靶标资源匮乏的问题(图1)。
互联网数据资讯网(BCC)数据显示,在医疗健 康产业的所有AI应用场景中,新药发现的市场规模与 增长速度均占据第一位,预计到2024年该市场规模 将达到31.17亿美元,年均复合增长率为40.7%。同 时,Grand View Research数据显示,到2027年,全球 AI+药物发现的市场规模预计将达到35亿美元,复合 年增长率(CAGR)为28.8%。
图1 AI驱动制药领域产业变革
1 人工智能与药物开发
人工智能和机器学习(AI/ML)技术,通过对源自 可穿戴设备、医学影像、精准医疗数据,以及临床试 验设计、执行与分析过程中的生物标识信息进行深度 剖析,显著提升了药物开发的成功率。这些技术不仅 加速了新治疗靶标的发掘和蛋白质结构的预测进程, 而且深化了对疾病与靶标之间关联性的认知,扩大了候选药物的筛选范围。此外,它们还优化了分子化合物的结构设计,促进了疾病预后及新型生物标志物的 预测和开发。
1.1 靶点识别和选择
药物发现的计算过程通常始于药物靶标的识别、 评估和合适的药物候选化合物的寻找。药物发现的首 要任务是找到与病理生理学相关的靶蛋白,并建立一个合理的研究框架,因此,靶标选择在疾病病理学中 起着关键作用。为了评估潜在分子的药物性能并优先 选择候选靶标,必须综合考虑多种数据,理解疾病表 型的分子机制,同时识别特定患者的变化。
目前,在人类蛋白质组中大约存在2万种蛋白质, 其中只有约3 000种被确定为潜在的治疗靶点。为了识 别更多与疾病相关的靶点,以及从大量数据中筛选和 确认这些靶点与疾病的关系,可以应用AI/ML等先进 技术加速这个过程,快速将庞大的药物化合物库缩小 到更小、更集中的化合物库,从而更快地确定最有前 途的候选药物。例如,利用ML算法可以分析各种类型 的数据,包括基因表达谱、蛋白质之间的相互作用网 络,以及基因组和蛋白质组学数据,以识别可能参与 疾病通路的潜在靶点。又如,DL代码有助于预测具 有生物活性的小分子,并开发新的化学结构。
Melagraki 等开发了一种基于自组织映射(Self-Organizing Maps, SOM)的药物等效关系预测(SOM-Based Prediction of Drug Equivalence Relationships,SPiDER)的ML 方法,它使用神经网络算法,以无监督的方式将输 入向量离散化为特征映射。该软件目前已广泛应用于设计具有高抑制潜力的天然产物,包括识别药物 靶标法尼酯X受体(farnesoid X receptor)、5-脂氧合 酶(5-lypoxygenas)和过氧化物酶体增殖激活受体 (peroxisome proliferator-activated gamma receptor)等。 基于此,SPiDER后续又将SOM概念扩展到不同的药 物设计中,将具有相似药理特征的分子分组为功能相 关的化合物簇,以生成目标预测,然后进行实验验 证。Beck团队开发了一种基于DL的药物—靶标相 互作用预测模型,称为分子转换器—药物靶标相互 作用(Molecule Transformer-Drug Target Interaction, MT-DTI)。该模型基于靶蛋白的化学序列和氨基酸 序列来预测结合亲和力,不需要其结构信息,便可用 于识别美国食品药品管理局(FDA)批准的可能抑制 SARS-CoV-2核心蛋白功能的有效药物。
1.2 药物设计与优化
开发靶标分子以精准调节受体功能,旨在干预疾 病相关的生物途径,这是药物设计中至关重要的策 略。然而,这一过程面临着复杂且多样化的挑战,尤其是针对那些表现出特殊性质的药物靶标。
在设计新药时,药物的物理化学性质,如溶解 度、分配系数、电离度和内在渗透性,可能对药物与 靶受体家族的相互作用产生间接影响。AI不仅可以 用于优化化合物的选择,还能规划化学合成的有效 路线,深入了解药物的反应机制,识别与其他分子 潜在的不必要相互作用。例如,Ram Sundar等开发的 DeepChem是一种利用多任务深度人工神经网络的开 源工具,通过整合多个人工神经网络与马尔科夫状态 模型的方法,有效地揭示未知的配体—受体相互作用 模式,从而在探索新药物时显著缩减实验数据的需求 量。这一技术进步促进了对新的别构位点的发现,这 些位点作为潜在的药物靶标,为受体的精确调整与优 化提供了新的途径。
同时,ML算法可以预测未知的生物事件和问题。 例如Costa等开发了一个创新的计算模型,能够在全 基因组层面上预测疾病发生率及潜在的药物作用靶基因,极大地缩短了传统的实验周期,并在鉴定与疾病 机理紧密相关的分子药物靶点上展现出广泛应用潜力。Volk团队应用ML方法模拟DNA、蛋白质以及 特定通路水平上的靶点识别挑战,并处理基因组和细 胞群落的数据。Momoshina等采用与复杂疾病中药 物靶点识别相同的概念,利用肌肉组织中生物标志物 的发现方法来检测药物靶点,该方法将支持向量机模 型与线性核和深度特征选择相结合,寻找与衰老相关 的表达基因。这些技术的进步不仅促进了对生物标 志物的高效识别,还通过逆向工程策略,增强了对生 物系统内在运作机制的理解与设计能力,为个性化医 疗和药物开发开辟了新路径。
此外,在现代药物设计过程中,计算能力和算法对于开发具有治疗意义的新先导化合物至关重要。如今,有几类研究提供了深刻的见解,这些见解有助于确定药物的作用功能或抑制疾病的机制。在计算机辅助药物设计(CADD)方面有两种研究方法,一种是基于结构的药物设计(SBDD),另一种是基于配体的药物设计(LBDD)。截至目前,已经有许多程序或软件使用各种算法,并通过SBDD或LBDD预定义的评分函数来解释结果。然而,准确参数化预测和预测的精度仍然是筛选潜在药物分子面临的挑战。为了解决这些问题,Nagarajan 等在CADD中引入了一种参数化过程,使用少量参数和具备简洁数学表达形式的重要变量,显著降低模型的不确定性,从而更精确地预测潜在的先导分子,提高药物研发的准确性和效率。
1.3 药物筛选
通过ML和DL算法,AI能够快速分析大量的化学 和生物数据,识别潜在的药物靶点和化合物。相比传 统方法,AI不仅能加快筛选速度,还能提高准确性, 减少实验成本。在实际操作中,鉴于特定分子筛选所 需的数据积累可能不足,通常采用AI迁移学习模型, 以筛选先导化合物或生物类似药物。迁移学习模型 即利用已训练的AI模型,在新任务上进行微调,从而加速模型的训练过程,解决数据不足的问题。有研究 使用其他肿瘤的AI模型进行迁移学习训练,然后在非 小细胞肺癌药物筛选中进行应用,成功生成了具有亲 和力的6 283种候选药物,且大幅缩短了模型训练时间。此外,通过高通量筛选,化合物库中的潜在相 互作用分子可以被鉴定并优化为具有有利药物特性的 化合物。例如,Valentini等开发了一种结合基因网络 功能和基于细胞核的方法来进行基因排序。Ferrero 等则利用公共数据库中的靶标-疾病关联数据来预测 新的药物靶标。
同时,药物的虚拟筛选(Virtual Screening,VS) 通过在计算机上高效筛选庞大的化合物数据库,精准 定位那些与特定生物靶点具有高亲和力的小分子,显 著降低实验成本与时间消耗。例如,使用高度自动化 和多功能的开源平台VirtualFlow筛选出超过10亿种化 合物,在识别与靶蛋白具有高亲和力的分子方面具有 潜力。一项研究使用深度对接筛选了含有13.6亿种 化合物的ZINC库,仅需对接1%的化合物即可显著缩 小化学库规模,同时保留90%的最佳得分结构。另 一项研究通过虚拟筛选、分子动力学模拟,结合自由能计算和DeLA-Drug分析,鉴定了人-3-磷酸脱氢 酶1(GPD1)的潜在调节剂,揭示了特定残基对于系 统稳定性的关键作用,并确定了10种有前景的小分子作为潜在的先导化合物。还有研究利用疾病模块 分析,通过Trustrank算法筛选出用于慢性心力衰竭 (CHF)治疗的潜在药物,如dasatinib和mitoxantrone, 这些药物与关键疾病蛋白有较低的对接分数,显示出良好的治疗潜力。
未来,随着AI、HTS和其他先进技术的进一步发展和紧密结合,不仅将加速药物发现的进程,还将极 大地提高新药开发的成功率和效率。
1.4 药代动力学分析
AI通过集成基因组学、蛋白质组学、代谢组学乃至丰富的临床试验数据,能够挖掘出潜在的生物标志 物,阐明药物反应中的个体差异,进而推动精准医疗的发展。例如,基于AI的系统药理学模型能够综合考虑遗传变异、环境因素和生活方式对药代动力学参数的影响,为特定患者群体定制治疗方案提供科学依据。
同时,研究人员正在探索多种策略应对数据质量 与个体差异带来的挑战。一方面,通过增强数据清洗 和预处理算法,提高数据的准确性和一致性,确保AI 模型训练的质量;另一方面,采用“联邦学习”(fed- erated learning)等创新技术,在保护患者隐私的前提 下,跨机构共享匿名化数据,扩大数据集的多样性和 代表性,从而提升模型的泛化能力。此外,结合生 理药动学(PBPK)模型与AI,能够模拟药物在内的吸收、分布、代谢和排泄过程,不仅限于参数预 测,还能在药物开发早期预测药物相互作用、食物效 应等复杂场景,进一步减少临床试验的不确定性。
未来,随着算法的进步、数据资源的丰富以及计 算能力的提升,AI在药物动力学领域的贡献将会更加深远。
2 人工智能与临床试验
临床试验是复杂的、劳动密集型的、昂贵的,并且可能容易出现意想不到的错误,以及性别、种族 和社会经济等偏见。造成试验失败率高的两个主要 原因是患者队列选择和招募机制不佳,以及在试验 期间无法有效监测患者。近年来,真实世界数据 (RWD)源自多样化的现实医疗情境,包括电子病 历、登记数据库、患者报告等,AI技术和RWD在医 疗保健领域的使用,与先进AI算法相结合,正重塑临 床试验的设计与执行框架,开创性地转变临床试验的实施模式。
2.1 临床试验方案设计
在临床试验的众多环节中,试验设计是基础且关 键的一步。AI的介入为临床试验方案设计带来了前所 未有的变革。例如,HINT(Hierarchical Interactive Network Tool)算法通过综合分析药物分子结构、目 标疾病特性以及患者纳入排除标准等多方面的数据, 预测特定临床试验设计的成功概率。SPOT(序列化预测模型)系统是另一种利用AI进行试验设计优化的 方法,根据历史试验的时间节点对数据进行加权,赋 予近期试验更高的参考价值,从而为试验设计提供更 为准确的预测。还有研究团队利用SEETrials方法巧妙 融合了OpenAI的GPT-4模型,开创了一种高效、全面 获取临床试验安全性和有效性的新路径,可以迅速锁 定过往研究中的核心设计特征及成果,为新的试验设 计提供坚实依据,显著提升了数据处理的效率。
2.2 优化临床试验招募
AI可以用于匹配合适的患者到相应的临床试验,并帮助招募合适的参与者。例如使用自然语言处理(NLP)工具,使计算机能够理解、解释和生类语言,通过学习临床试验方案和患者的真实世界数据,提取关键信息,以决定患者的资格。通过这种方式,AI不仅提高了匹配精度,还加速了患者入组的进程,显著提升了临床试验的效率和成功率。例如,Liu等开发了名为Trial Pathfinder的开源AI工具,并且利用真实世界数据模拟已完成的非小细胞肺癌试验,结果显示,一些常用的标准(如实验室测试结果)对试验效果的影响微乎其微。采用数据驱动的方法放宽标准,不仅使原本可以入组的患者人数增加了1倍,还将总体生存的相对风险降低了0.05。而Hassanzadeh等提出了一种基于ML的方法,根据试验的入组标准自动匹配患者,辅助优先选择患者合格的相关临床试验集。
除了优化参与者外,AI还可以用于创建外部对照 组,使试验更加以患者为中心,缩短入组时间,并增 加统计效力和结果的可信度。例如,Unlearn公司开发 的TwinRCTsTM临床试验软件结合了AI、数字孪生和 新颖的统计方法,通过较少的患者数量来提高试验的 成功率,并且已经开始与制药公司、生物技术公司和 学术机构合作应用。此外,近年来还有更多的研究使用基于多模态成像标记的AI,即从多种成像模式中 提取的一组可测量特征,如磁共振成像、正电子发射 断层扫描、计算机断层扫描或超声作为入组标准,选 择理想的临床试验患者,这可以在保持高统计效力的 同时显著减少样本量。例如,AutoTrial系统利用 先进的大语言模型,通过对临床试验描述的深度理解 和分析,自动生成合适的参与者筛选标准。总之,AI 为促进患者入组提供了新方法,但未来可能需要对评 估此类工具的数据标准进行清晰定义并保持一致性, 否则难以比较这些工具的稳健性。
2.3 临床试验结果预测
AI模型可以预测临床药物反应,对数据进行管理 和分析,从而显著简化临床研究,降低成本。特别是 利用自然语言处理(NLP)技术,能够识别和提取这 些非结构化数据中的关键信息,如病症描述、药物名 称和治疗效果等,并将其转换为结构化数据,以便于 进一步的分析和研究。例如,Taimei Technology系统 可以提供自动化解决方案,简化临床试验的数据管理 流程,实现自动化收集、整理和分析数据,提高数据 处理的效率和准确性。
数据驱动的AI工具在改进临床试验设计的各个环节方面具有巨大潜力。通过加速患者与试验的匹配和 招募,以及动态监控试验期间的患者,这些工具可以 提高成功率,改善依从性控制,并提供更加可靠和有 效的终点评估。然而,在AI成熟应用于临床试验之前,还需要攻克很多障碍。例如高质量的数据是AI模 型的基础,这需要标准化的生物医学数据库建设,包括临床记录、医学影像、组学数据、可穿戴设备和健 康应用数据;此外,机构间的激烈竞争和数据隐私法,使数据共享存在挑战,利用数据加密和群体学习 等隐私保护技术可能有助于改善该情况。
3 人工智能与制药产业供应链管理
制药产业运营价值链包括采购、制造、质量和供应链,AI有望对其全链条进行改善。美国食品药品管 理局(FDA)认为,AI用于药物生产主要分为4个场景,包括工艺设计优化和工艺放大、高级工艺控制、 工艺过程的检测以及缺陷的检查、趋势分析和检测。 麦肯锡《生成式AI在制药行业中的应用》报告指出, 这些优化药品生产的方式将通过减少关键损失,将整 体设备效率(OEE)提高10%~15%,同时使生产线 的生产力提高30%以上,使维护技术人员的工作量减 少15%~35%,并且通过检测异常情况,将质量成本 降低5%。
在制药的供应链管理方面,可以利用预测分析优 化库存、物流和供应链决策,减少浪费,提升响应速 度。尤其是在原材料短缺时,库存问题会对生产时间线产生重大影响。而实时调整供应和生产计划极具挑 战性,需要专家在现场作出判断,以跟踪订单、识别 瓶颈并优化网络。基于AI的规划工具通过分析历史和 市场趋势来应对这些问题,预测需求高峰、供应链瓶 颈和中断,生成主动干预计划,并在考虑可用材料、 当前客户需求和操作限制的情况下实时协助制定生产 计划。这些工具还会自动监控供应,以实现最佳库存 水平,有望使供应链成本降低2%~3%,库存规划和 预测准确性提高15%,需求规划人员的工作量减少 20%~30%。
4 人工智能技术赋能药物产业创新的挑战与展望
近年来,制药和生物医药行业普遍采用了多种基于AI的工具,使流程更加高效和自动化,同时整合了预测性和数据驱动的决策,给药物产业带来创新的同时,也迎来了一系列新的挑战。
4.1 挑战
AI工具虽然提供了大量数据,用于训练后续模 型,但是这些方法也存在一些问题,例如大量的数据 可能会直接影响DL和ML方法的性能。尽管DL方法在克服这些问题方面具有潜在优势,但这些模型的机 制仍然不够清楚。同时,药物发现领域的AI应用还 面临诸如数据表示、数据标记、标记之间的差异、样 本量小、数据隐私、伦理、学习范式和模型解释等挑 战。比如,一个分子可以用多种方式表示,化合物的 毒性取决于剂量和生物系统,在临床中还取决于诸 如年龄、性别、种族和病史等临床信息。因此,设 计系统、学习真实表示和标记数据都是AI辅助药物发 现领域面临的主要挑战。
目前,许多公司都在广泛采用AI平台,制药和生 物医药公司以及其他组织需要清楚了解AI和ML工具 的潜力,以便在明确了解问题的情况下找到适当的解 决方案。同时,药物开发、临床试验和销售等特定 任务通常需要较长时间,但可以通过AI和ML程序加 快这些过程。因此,企业需要具备深入了解AI和ML 技术的程序员和熟练的数据科学家,以及明确透明的业务目标,以充分利用这些平台的潜力。
4.2 展望
AI药物研发是AI领域与制药领域的交叉,行业发 展受到制药政策特别是创新药领域政策和AI领域政策 的双重影响,当前,国家对两大领域均持鼓励态度。 AI和ML平台的不断发展,可以帮助找到正确的剂型 并优化其生产。同时,AI公司与制药公司的紧密合作也将驱动药物设计的进一步发展,例如赛诺菲、 OpenAI及AI药企Formation Bio于2024年5月21日宣布 将合作构建一款AI驱动的药物开发软件,开发贯穿药 物开发全周期的定制化专属解决方案。
总之,AI在医疗领域正加速药物发现进程,但如 果临床开发无法跟上,患者将无法及时享受创新成 果。尽管随机对照试验(RCT)仍是临床开发的核心,精准医疗的兴起和激烈的研发环境正在挑战其传 统地位。AI在提高运营效率和加速进程方面已初见成 效,并为设计更精确、高效的试验提供了新机遇,提升了试验成功率。AI与真实世界数据的结合,可以通过多样化数据来源和隐私保护技术,扩大医学研究的范围。大型语言模型如BioGPT可以从非结构化数据 中提取高质量信息,支持临床决策。然而,AI和RWD 的应用大多限于个别场景,未能充分整合其潜力。为了更有效地利用AI,组织需要调整治理流程和激励 机制,培养内部能力,减少对外部供应商的依赖。同时,尽管AI在临床开发中的潜力巨大,仍需克服组织 障碍,系统性地整合进临床试验设计中,以确保更快地将创新疗法带给患者。通过建立综合数据平台、严 格的数据质量管理、AI驱动的患者分层和试验优化策略,可以加快药物研发进程,提升临床研究的效率和准确性。
未来,在医疗保健领域,AI和ML技术将提高临 床实践的效率,并增强对患者的关怀。此外,研究应更加关注临床试验的安全性和有效性,同时确保适当的市场定位,不断扩大AI和ML在未来制药和生物医药行业中的影响力和作用。
原文刊载于《竞争情报》2024年10月 作者:中国科学院上海生命科学信息中心 张学博 马征远 袁银池 李丹丹