大環(huán)類化合物是指由 12 個(gè)以上原子組成的小分子或肽。相較于其他小分子化合物,大環(huán)類化合物在結(jié)構(gòu)和性能上有著諸多優(yōu)勢(shì),也因此被視為各類靶點(diǎn)的潛在治療藥物。
基于藥物化學(xué)合成的大環(huán)類似物是大環(huán)類藥物的一個(gè)主要來源。然而,由于合成方法匱乏、合成難度高、參考資料少,大環(huán)類藥物的開發(fā)鮮有人問津。
為此,華東理工大學(xué)的李洪林課題組基于 Transformer 開發(fā)了 Macformer。Macformer 成功將無環(huán)藥物菲卓替尼大環(huán)化,得到了藥效更強(qiáng)的新化合物,為藥物開發(fā)提供了新方法。
作者 | 雪菜
編輯 | 三羊
大環(huán)類藥物的前世今生
大環(huán)類化合物 (Macrocycles) 是指由 12 個(gè)以上原子組成的小分子或肽。這類化合物有著高分子量和大量氫鍵供體,有著更強(qiáng)的親和力、選擇性和藥理學(xué)特性。大環(huán)類藥物已經(jīng)被視為各類靶點(diǎn)的潛在治療藥物,如激酶 (Kinases)、蛋白酶 (Proteases) 和 G 蛋白偶聯(lián)受體 (G-Protein-Coupled Receptors)。
大環(huán)類藥物格爾德霉素(左)和阿奇霉素(右)
除天然的大環(huán)類藥物外,基于藥物化學(xué)合成的類似物也是大環(huán)類藥物的一個(gè)主要來源。將已知的無環(huán) (Acyclic) 藥物大環(huán)化,就可以直接有效地得到新的大環(huán)藥物,并實(shí)現(xiàn)所需要的藥理學(xué)性能。然而,由于合成方法的匱乏和合成難度高,大環(huán)類藥物在藥物設(shè)計(jì)中仍很少被人關(guān)注。
目前線性分子的大環(huán)化主要依賴經(jīng)驗(yàn)推斷。而且,即使文獻(xiàn)會(huì)呈現(xiàn)出最終的合成結(jié)果,但藥物的合成和推斷過程卻總是語焉不詳。不透明、不標(biāo)準(zhǔn)的合成過程,提高了行業(yè)的門檻,阻礙了大環(huán)類藥物的開發(fā)。
深度學(xué)習(xí)雖然在藥物開發(fā)的不同階段中展現(xiàn)了巨大的潛能,但是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量數(shù)據(jù)。考慮到臨床批準(zhǔn)的大環(huán)類藥物不足 90 個(gè),因此尚沒有研究利用深度學(xué)習(xí)算法進(jìn)行藥物的大環(huán)化。
為此,華東理工大學(xué)的李洪林課題組基于 Transformer 開發(fā)了 Macformer,以實(shí)現(xiàn)線性分子的大環(huán)化。他們將同一化合物用不同簡(jiǎn)化分子線性輸入規(guī)范 (SMILES) 表示,實(shí)現(xiàn)了數(shù)據(jù)的擴(kuò)充。
隨后,以美國(guó)食品藥品監(jiān)督管理局 (FDA) 通過的 JAK2 抑制劑菲卓替尼 (Fedratinib) 為例,利用 Macformer 將其大環(huán)化,得到了新的大環(huán)化合物。這一化合物有著更好的選擇性和藥代特性,因此所需劑量較菲卓替尼更低。這一成果已發(fā)表于 「Nature Communication」。
這一成果已發(fā)表于 「Nature Communication」
獲取論文:https://www.nature.com/articles/s41467-023-40219-8
關(guān)注「HyperAI超神經(jīng)」公眾號(hào),后臺(tái)回復(fù)「大環(huán)藥物」獲取完整論文 PDF
實(shí)驗(yàn)過程
數(shù)據(jù)集:數(shù)據(jù)擴(kuò)充的 ChEMBL 數(shù)據(jù)集
首先,研究人員從 ChEMBL 數(shù)據(jù)庫(kù)收集了 18,357 個(gè)有生物活性的大環(huán)化合物,并進(jìn)行了篩選。隨后,遍歷大環(huán)化合物的任意兩個(gè)化學(xué)鍵,將其連接子拆分,找到對(duì)應(yīng)的無環(huán)化合物。最終共得到 237,728 對(duì)大環(huán)-無環(huán)化合物,作為本研究的數(shù)據(jù)集。
Macformer 拆解大環(huán)化合物的過程
任一化合物均有特定的 SMILES 表達(dá)式。然而,最近的研究顯示,使用化學(xué)上相同但句法不同的一組隨機(jī) SMILES 表達(dá)式進(jìn)行模型訓(xùn)練,可以顯著提高深度學(xué)習(xí)模型的性能。研究人員將擴(kuò)充 2、5、10 倍的數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行了對(duì)比,所有數(shù)據(jù)在 50,000 step 之后均有較好的收斂效果。
數(shù)據(jù)擴(kuò)充流程
模型架構(gòu):Transformer 的編解碼
Macformer 基于 Transformer 架構(gòu)實(shí)現(xiàn)。輸入化合物和目標(biāo)化合物的 SMILES 序列都被嵌入到可訓(xùn)練的矩陣中,并通過正余弦函數(shù)進(jìn)行位置編碼。
輸入化合物的嵌入矩陣被饋送到編碼器中生成潛在表示 (Latent Representation) ,以初始化編碼過程。每個(gè)編碼器層由一個(gè)多頭注意力層和位置前饋網(wǎng)絡(luò)組成。
Macformer 的最終目標(biāo)是通過交叉熵?fù)p失函數(shù),最小化預(yù)測(cè)序列和對(duì)應(yīng)目標(biāo)序列之間的差距,輸出預(yù)測(cè)的大環(huán)化合物。
Macformer 的架構(gòu)
對(duì)比研究:ChEMBL 數(shù)據(jù)集
研究人員將 Macformer 和非深度學(xué)習(xí)模型 MacLS 進(jìn)行了對(duì)比。在輸入無環(huán)化合物之后,二者均能輸出一個(gè)大環(huán)的類似物。因此,大環(huán)化合物的化學(xué)有效性、新穎性和唯一性將作為模型性能的評(píng)價(jià)標(biāo)準(zhǔn)。和原始數(shù)據(jù)集對(duì)比,擴(kuò)充 2 倍的數(shù)據(jù)集全面提升了模型的性能,尤其是在回收率 (96.09% vs. 54.85%)、有效性 (80.34% vs. 66.74%) 和連接子新穎性 (58.91% vs. 40.56%) 上,而數(shù)據(jù)集的進(jìn)一步擴(kuò)充沒有繼續(xù)提高模型的性能。
Macformer 和 MacLS 基于 ChEMBL 的性能對(duì)比
MacLS_self 使用非循環(huán)的 SMILES 從頭開始生成構(gòu)象,而 MacLS_extra 會(huì)從目標(biāo)大環(huán)化合物的低能量 3D 結(jié)構(gòu)中提取構(gòu)象。
MacLS_self 的有效性僅有 17.05%,而 MacLS_extra 的化合物新穎性和唯一性超越了 Macformer。但是,MacLS 只能從訓(xùn)練集中搜索連接子,因此連接子的新穎性為 0。而且,MacLS 回收大環(huán)化合物的比率也很低,不足 5%。
對(duì)比研究:ZINC 數(shù)據(jù)集
進(jìn)一步的,兩個(gè)模型在外部數(shù)據(jù)集 ZINC 上進(jìn)行了對(duì)比。擴(kuò)充 5 倍的數(shù)據(jù)集訓(xùn)練的 Macformer 模型有著 80% 以上的回收率、84% 以上的有效性和 99% 以上的新穎性。上述結(jié)果說明數(shù)據(jù)擴(kuò)充后的 Macformer 有著優(yōu)秀的泛化能力。
Macformer 和 MacLS 基于 ZINC 的性能對(duì)比
由于 MacLS 沒有 Macformer 的學(xué)習(xí)能力,其在不同數(shù)據(jù)集的結(jié)果基本類似。
化學(xué)分布:Macformer 與輸入更相似
如果不考慮連接子的新穎性,Macformer 和 MacLS 都有生成新的大環(huán)化合物的能力。因此,研究人員對(duì)比了二者生成的化合物在化學(xué)空間的分布。
首先,通過谷本系數(shù) (Tanimoto coefficient) 對(duì)比了化合物之間的相似性。由于無環(huán)化合物和大環(huán)化合物結(jié)構(gòu)上的相似性,模型生成的絕大多數(shù)化合物谷本系數(shù)均在 0.7 以上。然而,Macformer 生成化合物與原始化合物的結(jié)構(gòu)相似性較 MacLS_extra 更高。
模型的谷本系數(shù)對(duì)比 (a) 和 UMAP 圖 (b)
這一結(jié)果比較反常,因?yàn)?Macformer 能夠推斷出訓(xùn)練集中不存在的連接子,而 MacLS 不具備這一能力。為此,研究人員利用統(tǒng)一流形逼近與投影算法 (UMAP) 進(jìn)行了數(shù)據(jù)降維。結(jié)果顯示,Macformer 生成的新連接子均分布在 ChEMBL 訓(xùn)練集附近。
實(shí)驗(yàn)驗(yàn)證
藥物開發(fā):菲卓替尼的大環(huán)化
近年來,大環(huán)類化合物作為潛在的激酶抑制劑飽受關(guān)注。為驗(yàn)證模型的預(yù)測(cè)性能,研究人員利用 Macformer 設(shè)計(jì)了 JAK2 的抑制劑。JAK2 屬于 JAK 家族激酶,是治療骨髓增生性腫瘤和類風(fēng)濕性關(guān)節(jié)炎的重要靶點(diǎn)。
模型的輸入為菲卓替尼,這是一種用于治療骨髓纖維化的小分子藥物。菲卓替尼對(duì) JAK2 的選擇性優(yōu)于其他 JAK 激酶,但對(duì)于其他激酶的選擇性較差,導(dǎo)致其他副作用。
大環(huán)化的連接點(diǎn)設(shè)置為兩個(gè)末端苯環(huán),并去除可能不利于與 Asp994 靶點(diǎn)接觸的叔丁基黃酰胺。為了增加預(yù)測(cè)的大環(huán)藥物的多樣性,將每個(gè)源 SMILES 序列擴(kuò)充 10 倍。最終,Macformer 輸出了10,700 個(gè)結(jié)果,包括 281 個(gè)新的大環(huán)類藥物。
菲卓替尼的大環(huán)化過程
在評(píng)估了大環(huán)類藥物和靶點(diǎn)的結(jié)合情況,及合成可行性后,研究人員最終選擇了 3 種化合物進(jìn)行合成評(píng)估測(cè)試。其中,化合物 1 的連接子尚未報(bào)道于大環(huán)藥物的設(shè)計(jì)或是 JAK2 抑制劑的開發(fā)中。
而在 MacLS 設(shè)計(jì)的 300 個(gè)大環(huán)藥物中,沒有發(fā)現(xiàn)這 3 個(gè)化合物,這再一次證明了深度學(xué)習(xí)算法在新藥設(shè)計(jì)的潛力。
體外評(píng)估:酶和細(xì)胞水平的活性
隨后,評(píng)估這 3 種化合物對(duì) JAK2 的活性,其半抑制濃度 (IC50) 分別為 0.07、0.364 和 0.006 μM。對(duì)最有效的 1 和 3 進(jìn)行 100 μM 的特異性評(píng)估,分別只有 10 和 17 種野生型激酶受到抑制,而菲卓替尼對(duì) 34 種野生型激酶有影響,說明化合物 1 和 3 的選擇性更好。
化合物 1、3 和菲卓替尼對(duì) 468 種激酶的選擇性測(cè)試
同時(shí),還對(duì)化合物 1-3 對(duì) JAK2 依賴的細(xì)胞的抗增殖性能進(jìn)行了評(píng)價(jià)。結(jié)果顯示,化合物 1 和 3 可以 JAK2 依賴細(xì)胞的增殖,且劑量較菲卓替尼更低。
體內(nèi)評(píng)估:藥代動(dòng)力學(xué)測(cè)試
最后,研究了化合物 1、3 和菲卓替尼靜脈注射 (iv, 5 mg/kg) 和口服 (po, 5 mg/kg) 的藥代動(dòng)力學(xué) (PK, pharmacokinetic)。
除生物利用度 (9.4% vs. 11.7%) 外,化合物 3 全面優(yōu)于菲卓替尼。同時(shí),化合物 1 在口服特性上也有優(yōu)勢(shì),如全身暴露 (106.00 vs. 50.19 h*ng/mL) 和生物利用度 (14.1% vs. 11.7%)。上述結(jié)果說明,大環(huán)化有利于提升菲卓替尼類藥物的代謝穩(wěn)定性。
化合物 1、3 和菲卓替尼的藥代動(dòng)力學(xué)參數(shù)
活體測(cè)試:化合物 3 對(duì)炎癥的抑制
據(jù)報(bào)道,JAK2 的過表達(dá)會(huì)導(dǎo)致炎癥性腸病 (IBD),也就意味著抑制 JAK2 的活動(dòng)可能有助于炎癥性腸病的治療。研究人員在小鼠模型上進(jìn)行了大環(huán)類藥物的測(cè)試實(shí)驗(yàn),以評(píng)估其在 IBD 治療中的作用。
根據(jù)藥代動(dòng)力學(xué)的測(cè)試結(jié)果,菲卓替尼的給藥劑量是化合物 3 的兩倍。結(jié)果顯示,化合物 3 和菲卓替尼都緩解了 IDB 引起的體重減輕,且實(shí)驗(yàn)組的疾病活動(dòng)指數(shù)從第 8 天起顯著降低。
最后用 HE 染色分析炎癥的嚴(yán)重程度。對(duì)照組出現(xiàn)了顯著的炎癥反應(yīng),包括炎癥細(xì)胞浸潤(rùn)、杯狀細(xì)胞丟失等,而實(shí)驗(yàn)中炎癥反應(yīng)較輕,結(jié)腸結(jié)構(gòu)完整。
不同組別的結(jié)腸 HE 染色結(jié)果(自左至右分別為:空白組;對(duì)照組;藥物 SASP 治療:化合物 3 治療;菲卓替尼治療)
上述結(jié)果說明,Macformer 推斷得到的大環(huán)化合物在藥代動(dòng)力學(xué)和選擇性上優(yōu)于傳統(tǒng)藥物,且可以用更低的劑量實(shí)現(xiàn)疾病治療。
高藥效、難合成,大環(huán)的喜與悲
截止 2020 年,美國(guó)食品藥品監(jiān)督管理局 (FDA) 共批準(zhǔn)了 67 種大環(huán)類藥物,占所有批準(zhǔn)藥物的 4%。其中,有 59 種是天然的大環(huán)類藥物,非天然的僅 8 種。2008 年,F(xiàn)DA 批準(zhǔn)了首款非天然的大環(huán)類藥物,普樂沙福 (Plerixafor),用于腫瘤治療。
大環(huán)類藥物的主要適用癥為傳染病,占比 44.4%,其后分別為腫瘤 (20.8%) 和抗真菌 (8.3%) 。近年來,大環(huán)類藥物在抗腫瘤方向的使用激增。2007 年之前僅有 4 種,而其后批準(zhǔn)了 11 種。
FDA 批準(zhǔn)的大環(huán)類藥物的適用癥
大環(huán)類藥物能夠在半剛性、預(yù)組織的結(jié)構(gòu)中提供多樣的功能和復(fù)雜的化學(xué)結(jié)構(gòu),這可以增加大環(huán)類藥物與傳統(tǒng)小分子難以結(jié)合的靶點(diǎn)的親和力和選擇性,進(jìn)而提升藥效。而且,某些大環(huán)類藥物能夠調(diào)整構(gòu)象,使其適應(yīng)外部環(huán)境。這一能力提高了其水溶性和細(xì)胞滲透性。
然而,大環(huán)類藥物的合成卻很復(fù)雜。大環(huán)結(jié)構(gòu)在增強(qiáng)與特定靶點(diǎn)結(jié)合能力的同時(shí),也導(dǎo)致了環(huán)張力 (Ring Strain)、空間相互作用和非共價(jià)的跨環(huán)相互作用,使得分子結(jié)構(gòu)和性質(zhì)的預(yù)測(cè)變得更加困難。
AI 在藥物開發(fā)中的應(yīng)用越來越廣泛。然而,有限的數(shù)據(jù)量往往會(huì)限制 AI 的性能。本研究中,研究人員使用隨機(jī)的 SMILES 表達(dá)式進(jìn)行了數(shù)據(jù)擴(kuò)充,在保障數(shù)據(jù)集豐富度的同時(shí),提升了 Macformer 的預(yù)測(cè)性能。
未來,隨著人們對(duì)藥物結(jié)構(gòu)和性質(zhì)的理解不斷深入,AI 在新藥研發(fā)過程中會(huì)有更高的參與度,為人們的健康保駕護(hù)航。
參考鏈接:
[1]https://www.cambridgemedchemconsulting.com/resources/hit_identification/macrocycles/macrocycles.html
[2]https://pubs.acs.org/doi/10.1021/acs.jmedchem.3c00134