论文解读《STALLION:一个基于堆叠的原核赖氨酸乙酰化位点预测的集成学习框架》
期刊:Briefings in Bioinformatics
分區:二區
摘要
蛋白質翻譯后修飾(PTM)是一種重要的調節機制,在正常和疾病狀態中都發揮著關鍵作用。賴氨酸殘基上的乙酰化是由于其在細胞代謝和調節過程中的重要作用之一。識別蛋白質賴氨酸乙酰化(Kace)位點是生物信息學中的一項具有挑戰性的任務。到目前為止,幾種基于機器學習的方法,在硅中識別Kace站點的方法已經被開發出來。其中,少數是原核生物物種特異性的。盡管這些方法具有誘人的優點和性能,但它們也有一定的局限性。因此,本研究提出了一種新的預測STALLION(基于堆疊的原核賴氨酸氨基酸預測器),包含6個原核物種特異性模型,以準確識別Kace位點。為了提取Kace站點周圍的關鍵模式,我們使用了11種不同的編碼,代表了三種不同的特征。隨后,采用系統、嚴格的特征選擇方法,獨立識別五種基于樹的集成算法的最優特征集,并為每個物種建立各自的基線模型。最后,利用基線模型的預測值,利用適當的分類器訓練來發展STALLION。比較基準實驗表明,STALLION在獨立測試中顯著優于現有的預測器。為了加快對STALLION模型的直接訪問,實現了一個用戶友好的在線預測器,可在:http://thegleelab.org/STALLION上獲得。
引言
分子生物學的“中心信條”的最后一步是翻譯過程,其中RNA編碼特定的蛋白質。蛋白質翻譯后修飾(PTMs)具有重要意義,因為它們在一些生物過程中發揮了作用,包括細胞周期調節、DNA修復、基因激活、基因調控和信號轉導過程。是蛋白質生物合成后期發生的可逆或不可逆化學變化。PTMs可以發生在單個氨基酸殘基或多個殘基中,導致改變位點的化學性質的改變。可逆修飾包括共價修飾,而不可逆變化包括蛋白水解修飾。PTMs可以影響蛋白質的多種特性,如細胞-細胞/細胞-基質相互作用、酶組裝和功能、分子運輸、蛋白質-蛋白質相互作用(PPIs)、蛋白質折疊、蛋白質定位、蛋白質溶解度、蛋白質壽命和受體激活,從而作為蛋白質功能的重要調節工具。超過400種不同類型的經前磁刺激已被鑒定,從添加小的化學或復雜基團(即。乙酰化、甲基化、磷酸化等)。以及多肽的添加。泛素化和sumo化)。賴氨酸殘基經歷了最多的PTMs與至少15個PTM類型。根據dbPTM數據庫的統計,磷酸化、乙酰化和泛素化是覆蓋>90%已報道的的三種主要類型.
賴氨酸乙酰化(Kace)是最重要的普遍存在的物質之一,在原核生物和真核生物中都高度保守。這是一個共價PTM催化賴氨酸乙酰轉移酶(KATs),乙酰基(CH3CO)從乙酰輔酶轉移到自由α氨基(氨+)的n端殘基(Nα乙酰化)或ε氨基內部賴氨酸(Nε乙酰化)在特定的網站。乙酰化有三種類型。Nα-Nε和O-乙酰化。Nε-和o-乙酰化是可逆的修飾,而Nα-乙酰化是不可逆的。Nα-乙酰化在真核生物中很常見,而Nε-乙酰化在生物學上更為重要,在肌動蛋白成核、細胞周期調控、染色質穩定性、細胞代謝、核運輸和PPIs中發揮重要作用。Kace的失調也與衰老和一些疾病有關,包括癌癥、免疫疾病和心血管和神經系統疾病。鑒于乙酰化在細胞生物學和疾病病理中很重要,識別Kace位點對于理解其調節機制是必要的。
近年來,一些實驗方法,包括放射性化學方法、質譜和染色質免疫沉淀,已被開發用于檢測Kace PTM位點。由于科學技術的最新創新,我們檢測Kace位點的能力大大提高;然而,考慮到蛋白質組的大小,我們只發現了一點點賴氨酸“修飾組”。此外,測試單一蛋白質中的每一個賴氨酸殘基都是很費力的。復雜的實驗識別凱網站(耗時、昂貴、勞動密集型和低吞吐量)導致過多的計算方法設計預測潛在的實驗驗證,特別是機器學習(ML)工具,已經變得越來越流行的快速和準確的預測。在過去的十年里,一些ML技術已經被使用開發用于鑒定原核生物和真核生物中的Kace位點。
目前,有十幾種Kace預測工具可用,例如PAIL , LysAcet , EnsemblePail , N-Ace , BPBPHKA , PLMLA , PSKAcePred , KAcePred , LAceP , AceK , SSPKA , iPTM-mLys , KA-predictor , ProAcePred , ProAcePred 2.0 , Ning et al. and DNNAce。大多數預測因子被設計用于鑒定真核生物中的乙酰化,且缺乏物種特異性。然而,有一些現有的預測因子已經被開發出來用于識別原核生物中的Kace。SSPKA和ka預測因子被開發用于真核和原核乙酰化位點的預測,其中包括兩個原核生物,,從而強調了一個物種特異性模型的重要性和必要性。Chen等人[36]開發了一種名為ProAcePred的預測9種原核生物、古菌、枯草芽孢桿菌、谷氨酸棒狀桿菌、大腸桿菌、嗜地桿菌、結核分枝桿菌、鼠傷寒桿菌和副溶血弧菌。后來,同一組為6種原核生物開發了更新版本的ProAcePred預測器ProAcePred 2.0: B.subtilis C. 谷氨酰胺、大腸桿菌、桿菌、結核分枝桿菌和鼠傷寒沙門氏桿菌。訓練數據集略大于ProAcePred中使用的數據集。這種ML研究為了解原核生物和真核生物之間底物位點特異性的差異提供了機會。
雖然在Kace站點的計算預測方面已經取得了進展,但仍有一些局限性需要解決。首先,大多數最先進的方法都使用了簡單的ML算法,如支持向量機(SVM)或隨機森林(RF)來訓練模型。由于尖端技術的進步,先進的ML方法,如深度學習(DL)、迭代特征表示或基于集成的堆疊方法,可以用來開發一個更魯棒和穩定的預測器,以提高Kace站點的預測性能。其次,現有方法在Kace預測中所使用的特征空間相當有限。最后,最先進的方法使用簡單的特征選擇技術來識別最優特征子集。不幸的是,這種簡單的方法可能會忽略Kace站點預測中存在的關鍵特征。考慮到這些局限性,我們開發了一種新的基于堆疊的預測器,稱為STALLION(基于堆疊的原核賴氨酸堆疊預測器),以提高對6個不同原核生物物種的Kace位點的準確預測。與其他最先進的方法相比,我們提出的方法的主要優點如下:(i)STALLION是第一個基于堆疊集成的預測原核生物Kace位點的預測器;(ii)我們對每個物種的綜合評估和比較了每個物種的11種不同的編碼方案,并試圖提取代表廣泛序列、位置特異性和物理化學特征的模式。隨后,我們使用三種不同的計算密集型方法分別對五種流行的基于樹的集成算法確定最優特征集,并對基分類器進行訓練。(iii)使用來自基分類器的預測信息和5倍交叉驗證,使用適當的分類器訓練疊加模型STALLION。對獨立數據集的比較分析顯示,該STALLION顯著優于現有的預測器,從而突出了利用我們的系統方法進行Kace預測的重要性。
數據和方法
訓練和獨立的數據集
最近,Chen等人基于PLMD數據庫http://plmd.biocuckoo.org/,為6個物種構建了新的非冗余數據集, (B. subtilis, C. glutamicum, E. coli, G. kaustophilus and M. tuberculosis)。因此,采用CD-HIT通過將序列同一性閾值設置為30%來消除同源序列,這對于避免交叉驗證或模型訓練中的高估具有很大的價值。在構建數據集時,作者使用不同的片段大小進行實驗,確定了最優大小為21個殘基長的序列片段,中心為K。如果中心K殘基乙酰化經過實驗驗證,則這些片段被定義為陽性樣本(Kace),否則它們就被認為是陰性(非Kace)樣本。值得注意的是,缺少殘基的中心K或任意末端的間隙被一個虛擬原子“O”取代。利用這些數據集,他們開發了一種名為ProAcePred2.0的物種特異性Kace位點預測器。
我們在當前的研究中使用了相同的數據集,因為它們是最近構建的,并使用了嚴格的方法來確定最優長度。一般來說,使用這樣一個高質量的數據集開發一個預測模型可能有更全面的實際應用。每個物種的訓練和獨立數據集的統計匯總如表1所示。我們使用平衡訓練數據集進行預測模型開發,使用不平衡獨立數據集來檢驗模型的魯棒性。
特征編碼方案的選擇
為了建立一種有效的基于ML的Kace預測方法,我們采用了幾種不同的特征編碼方案來編碼21種氨基酸[20個標準氨基酸和gap(O)的虛擬殘基]。我們總共采用了11種編碼方案,可分為三種主要類型:(i)基于序列的特征包括氨基酸(NRA)、二進制編碼(BINA)、氨基酸組成(AAC)、二肽組成(DPC)和聯合三聯體(CTF);(ii)基于物理化學性質的特征包括氨基酸指數(AAI)、分組二肽組成(GDPC)、分組三肽組成(GTPC)、k間隔氨基酸組對組成(CKSAAGP)和Zscale,(iii)位置特異性評分矩陣包括BLOSUM62。
特定于位置的評分矩陣
BLOSUM62 (BLOS).BLOSUM62矩陣通常應用于爆炸序列比對程序中。在這里,它被用來轉換蛋白質序列來描述兩個序列片段的相似性。一般來下,該替代矩陣用于大型數據庫中相關蛋白的序列保守性研究,已被用作多個預測因子的特征。BLOSUM62矩陣中的每一行都可以用來編碼這20個氨基酸中的一個。因此,我們可以根據BLOSUM62矩陣進行編碼,形成一個420(20×21)D的特征向量。
ML算法的選擇
在本研究中,我們采用了6種不同的分類器,包括5種基于決策樹的分類器(RF、極端梯度增強算法(XGB)、AdaBoost(AB)、梯度增強(GB)、極隨機樹(ERT)和SVM。一般來說,基于決策樹的算法可以處理非標準化的特征,而不像其他監督和DL算法。因此,我們只使用這5個分類器來構建基線模型。然而,我們使用了6個分類器來構建元模型,并選擇了一個合適的分類器。這些分類器已經在計算生物學和生物信息學中得到了許多成功的應用。每個分類器的詳細過程與我們之前的研究一致。通常,需要k倍交叉驗證分析來訓練或開發預測模型。我們采用了5倍交叉驗證,并使用網格搜索方法確定了最優超參數。補充表S1提供了每個分類器的網格搜索空間。
STALLION的框架
圖1總結了一個基于疊加集成學習的種馬框架。它涉及整體工作低的三個關鍵步驟,描述如下:
特征表示
每個物種訓練數據集中的序列基于AAI(525D)、AAC(21D)、DPC(441D)、cksaagp(150D)、CTF(343D)、Zscale(101D)、BINA(441D)、Blos(420D)、GTPC(125D)、GDPC(25D)和NRF(20D)編碼方案進行編碼。我們對每個序列的這11個編碼進行線性積分,得到一個2616D特征向量。因此,對的訓練數據集進行了分析 B. 精細的 C. 谷氨酰胺、大腸桿菌、考斯托夫桿菌、結核分枝桿菌和鼠傷寒桿菌分別為3142×2616、2104×2616、13、184×2616、412×2616、1730×2616和396×2616矩陣。
功能優化與選擇
每個序列都包含一個高維的特征向量(2616D),它可能包含不相關的或冗余的信息。因此,在模型訓練過程中,預測性能下降,需要大量的計算資源。我們采用兩步特征選擇策略,從原始特征維中選擇信息最豐富的特征。在第一步中,每個特性都會根據評分函數得到一個分數。在這里,我們使用了三種不同的評分函數,即。F-score、RF(RFIS)估計的特征重要性評分(FIS)和XGB(XFIS)計算的FIS,根據它們區分Kace和非Kace站點的能力。然后,我們根據其得分對原始特征維度進行降序排序。我們總共生成了三個特征列表(F-score,RFIS和XFIS),其中F-score和RFIS包含前2000個特征,而XFIS包含只有非零值的特征(~500個特征)。
其次,在對三個特征列表上獨立應用序列前向搜索(SFS)來識別次優特征子集。字母r和字母s分別表示已排序的特征列表和次優子集。在SFS中,k(k=5表示F-score和RFIS;k=2表示XFIS)將信息最豐富的特征從r移動到s,分別輸入到5個不同的分類器中,并通過在s中采用5倍交叉驗證來評估性能。這個過程被重復,直到r變空。最終,每個具有優越的Mathews相關系數(MCC)性能的分類器的特征子集被認為是每個物種的最優集。通常,將使用其中一個評分函數和一個分類器來確定最優特征集。然而,我們應用了一個系統的方法來識別最優特征集,盡管這個過程是計算廣泛的。由于我們使用了3個不同的排序列表和5個不同的分類器,我們獲得了每個物種的15個模型。
堆疊集成學習
對于每個分類器,我們從三個不同的次優子集模型中選擇最佳模型。因此,我們獲得了每個物種的5個最優基線模型。將從基線模型中接收到的預測概率和類別標簽結合起來,并作為一個新的特征向量(10D)。一般來說,基線模型的乘積是用邏輯回歸訓練的,同時開發最終的預測模型。然而,我們探索了6個分類器,其中包括5個基于樹的分類器和SVM。包含SVM的原因是新的特征向量在0-1的范圍內,SVM可以很好地處理。所有這些分類器都采用了10個隨機的5倍交叉驗證程序進行訓練。鑒于MCC是我們在5倍交叉驗證過程中的目標函數,可能有可能過擬合預測模型以達到最高的MCC。因此,我們通過隨機劃分訓練數據集,重復5次5倍交叉驗證,為每個分類器得到10個最優特征集。例如,C和γ參數的SVM各有10個值。但是,我們選擇了C和γ的中位數參數來建立最終的預測模型。這種隨機交叉驗證技術可以避免的過擬合。最后,比較從隨機的5倍交叉驗證中獲得的平均性能,以選擇每個物種的最佳模型。
附加功能編碼
在本研究中,我們還測試了k-最近鄰(KNN)的編碼。KNN編碼根據一個給定序列與來自訓練數據集(KAce和非KAce)的n個樣本的相似性,對一個給定序列進行特征分析。特別是,對于給定的兩個固定長度的序列r1和r2,相似度得分F(R1,R2)計算如下:
其中r1和r2為第j位兩個序列的氨基酸殘基,K為序列長度。兩個氨基酸m和n,相似度評分定義如下:
式中(m,n)由BLOSUM62替代矩陣得到的兩個氨基酸的相似性得分,A為替代矩陣,min(A)/max(A)分別為矩陣中最小/最大值。在本研究中,我們設置X=2、4、8、16、32、64和128,為給定的序列生成一個7D特征向量。
實施
所有的交叉驗證和獨立的評估都是在一個使用CentOS Linux 7.6和Python2.7.5的服務器上執行的。值得注意的是,所有的ML分類器(RF、ERT、GB、ERT和XGB ;是由 Scikit-learnv0.18.1軟件包構建和優化的。我們計算了三個不同的(F-score,RFIS和XFIS)評分函數,使用相同的包對特征進行排序。此外,本研究中使用的特征編碼是使用我們的內部代碼進行計算。值得注意的是,一些開源包,如iLearn和iFeftare可以計算這里使用的大多數特征編碼。
性能評估策略
采用六種性能測量方法來評估其他研究中廣泛使用的模型性能,包括MCC、敏感性(Sn)、特異性(Sp)、準確性(ACC)、平衡準確性(BACC)和受試者工作特征(ROC)曲線下面積(AUC)。這些指標的定義如下:
其中,TP、TN、FP和FN分別表示真陽性、真陰性、假陽性和假陰性。此外,我們還使用ROC曲線和AUC值來評估整體表現。
結果與討論
不同特征編碼方法與分類器之間的性能評估
我們采用5種基于樹的集成分類器(RF、GB、ERT、XGB和AB)和11種基于序列的特征編碼、物理化學性質和位置特異性評分矩陣,系統地研究了各種特征編碼和分類器在原核Kace位點預測中的影響。我們對每個物種數據集的每個模型進行了10次隨機5倍交叉驗證測試,并比較了55個模型(11個編碼×5分類器)的性能。圖2顯示,4種編碼(AAI、Zscale、BINA和BLOS)取得了相似的性能,對大多數原核物種的性能顯著優于其他7種編碼 (B. subtilis, C.glutamicum, E. coli, G. kaustophilus and M. tuberculosis).然而,我們發現6種編碼對S. typhimurium的性能相似,且顯著高于其他5種編碼(AAC、DPC、NRF、GTPC和GDPC)。總的來說,4種編碼(AAI、Zscale、BINA和BLOS)均優于同類編碼。.然而,其他編碼也擁有支持Kace位點預測的必要信息。為了概述每個分類器在Kace預測上的性能,我們計算了每個分類器的66個模型(11個編碼×6個物種)的平均性能。結果表明,AB、XGB、RF、ERT和GB的平均MCCs分別為0.261、0.255、0.241、0.232和0.230。值得注意的是,所有的分類器在Kace站點預測中都表現得相當好;然而,AB被發現略微優越。我們可以整合上述信息并開發一個穩健的模型,而不是尋找最好的模型。在本研究中,我們采用了類似于最近研究的堆疊方法。
確定6個物種的每個分類器的最優模型
正如方法部分提到的,我們應用了三種不同的評分函數對特征進行排序,每個都有自己的優缺點。例如,F-score和RFIS為所有給定的特征分配一個相對分數。然而,XFIS排除了~70%的功能和指定其余特性的相對分數。補充圖S1顯示了五種分類器對谷氨酰胺種類不同特征集的性能。在這里,我們觀察到,基于f-score(補充圖S1A)和RFIS(補充圖S1B),性能穩步提高,達到了最大的精度,隨后保持在平衡狀態。然而,對于XFIS,性能增長緩慢,直到最優的一個,隨后在添加更多特征的同時惡化(補充圖S1C)。
三種不同方法(F-score、RFIS和XFIS)的5個分類器的最優特征集的大小都有所不同。例如,RF、ERT、GB、XGB和AB分別從SFS識別的F-score中獲得了1000、520、790、260和410個最優特征集。相應的分類器分別有來自RFIS的140、1290、211、120和150D最優特征集和來自XFIS的30、38、31、52和44D最優特征集。同樣,來自三種不同方法的每個分類器的最佳模型顯示出不同大小的最優特征集。例如,RF擁有具有1000、140和40D最優特征集的三個模型。然而,我們基于最大的精度選擇了最佳的模型。對其他物種采用相同的程序,為每個分類器選擇最好的三個模型,并將其性能與對照組進行比較。
從圖3中可以看出,最優模型的性能始終優于控制模型,這說明需要采用特征選擇技術從原始維度中排除不相關的信息。對于三種植物 (C. glutamicum, E. coli and M. tuberculosis) XFIS得到的最優特征集在5個分類器上具有優于同類分類器(F-score和RFIS)的性能。在兩個物種中 (S. typhimurium and B. subtilis)從F-score中提取的最優特征集比(XFIS和RFIS)都取得了良好的性能。然而,對于G. kaustophilus,從F-score得到的最優特征集對RF和ERT分類器的性能有所提高。其余三種分類器在從XFIS獲得最優特征后表現出更好的性能。出乎意料的是,來自RFIS的最優特征集并沒有表現出最好的性能。值得注意的是,五種分類器的最佳模型被認為是每個物種的基線模型,并用于后續分析。總的來說,我們的系統特征選擇分析表明,必須應用不同的評分函數來對特征進行排序,并對SFS分別使用不同的分類器來獲得相應的最優特征集。
STALLION的構建
堆疊是一種集成技術,它考慮了不同的預測模型來生成一個穩定的堆疊模型。該方法采用了一種有效的方案來降低各種預測模型的泛化錯誤率。將5個基線模型的預測值(Kace和類標簽的預測概率)相結合,生成一個10D特征向量。與之前的方法不同,我們通過使用10個隨機的5倍交叉驗證,使用一個新的10D特征向量進行訓練,系統地評估了6個不同的分類器(圖4)。結果表明,5種分類器(RF、ERT、AB、XGB和SVM)的性能相似,略優于GB。在這五種分類器中,我們選擇了三個物種(B. subtilis, C. glutamicum andG. kaustophilus)的AB分類器,針對兩個物種的SVM分類器(M. tuberculosis
and S. typhimurium),以及針對E. coli的XGB分類器,其性能略優于其同類產品。6種模型一般命名為STALLION,B. subtilis的ACC、MCC和AUC分別為0.403、0.0700和0.745; C. glutamicum分別為; 0.357, 0.678 和0.733,G. kaustophilus分別為; 0.603, 0.801 和 0.836,M. tuberculosis分別為 0.557, 0.779和 0.782,S. typhimurium.的含量分別為0.571、0.785和0.770。
STALLION與單一特征模型的比較
為了展示我們提出的堆疊方法的優勢,我們將STALLION與基于單一特征的模型進行了比較。我們從圖2中選擇了前10個基于單一特征的模型,并將其與6個種物種的 STALLION進行了比較。圖5顯示,所有6種 STALLION均顯著優于單一特征模型,MCC高6.9-9.4% B. 枯草芽孢桿菌屬植物,則高出8.8-11.1% C. 谷氨酰胺,大腸桿菌高3.7-6.1%,腸桿菌24.9–28.2%高,結核分枝桿菌高8.6-11.7%,鼠傷寒桿菌高26.2–29.3%。 STALLION的優越性能在單一的基于特征的模型主要是由于新奇的引入我們的方法,其中包括(i)特征融合策略,(ii)從混合特性選擇最優特征集為每個分類器獨立和各自的基線模型建設和(iii)選擇一個合適的分類器疊加模型建設。
特征貢獻分析
為了了解不同特征在每個物種的最優特征集中的貢獻,我們分析了它們的組成和分布。值得一提的是,5個分類器模型對每個物種具有不同的最優特征子集。我們沒有關注每個子集,而是考慮了最優特征子集的最大大小,該子集可能包括5個物種的其他四個子集 (B. subtilis, C. glutamicum,
E. coli, M. tuberculosis and S. typhimurium). 在C.glutamicum中,RF、ERT、GB、XGB和AB分別包含30、38、31、52和44D的最優特征子集。在這里,52D有其他的特征子集。然而,在G. kaustophilus中,結合不同的最優亞群來研究它們的作用。從圖6可以看出,6個物種間最優特征集的特征分布存在顯著差異,但也有一些細微的相似之處。其中,AAI分別占了總最優特征的22.4%、59.6%、44.2%、28.8%、50.0%和24.4% B. subtilis, C. glutamicum, E. coli, G.kaustophilus, M. tuberculosis and S. typhimurium,。這一結果表明,AAI特征對6個物種具有重要的貢獻,表明它們在Kace預測中具有重要意義。6個編碼序列(AAC、DPC、cksaagp、CTF、Zscale和BLOS)對所有物種的最優特征集均有貢獻。盡管如此,它們之間的貢獻水平仍然不同,這表明在Kace預測中發揮了支持作用。此外,我們觀察到GTPC和GDPC、GTPC、NRF和GTPC和BINA分別對谷氨酰胺、大腸桿菌、腸桿菌和結核分枝桿菌的最終預測沒有貢獻。總體而言,除AAI外,其余不同物種間的特征貢獻差異較大,說明這些物種中的Kace位點可能具有不同的特征。
使用獨立測試進行性能驗證
我們進一步使用獨立的數據集評估了STALLION,并將其性能與現有的方法進行了比較。自2009年以來,一些計算工具已經被報道用于Kace站點預測。值得注意的是,Chen等人最近使用一個獨立的數據集評估了物種特異性ProAcePred 2.0預測器,并與現有方法的性能進行了比較,包括物種特異性ProAcePred,一般預測因子,即。集成桶,PSKAcePred,佛西達和PLMLA。結果顯示,ProAcePred 2.0顯著優于通用預測因子和他們之前的版本ProAcePred。因此,本研究只考慮ProAcePred 2.0進行比較,排除其他方法,原因如下:(i)物種特異性預測與通用預測比較不公平,這從以往的研究[36,37]可以明顯看出,(ii)ProAcePred 2.0是ProAcePred的升級版本。值得一提的是,每個物種的獨立數據集都提交給了ProAcePred 2.0 web服務器(http://computbiol.ncu.edu.cn/PAPred),預測是根據給定的默認閾值計算的。值得注意的是,ProAcePred 2.0返回Kace站點及其預測概率值,但不返回非Kace的預測概率值。因此,用部分概率信息計算AUC值可能是不可行的。然而,我們比較了兩種方法在MCC方面的性能,這是一個直觀和直接的度量,而處理一個不平衡的數據集,如所述。我們的評估結果顯示,STALLION的MCC分別為0.295、0.329、0.390、0.259、0.380和0.202 B. 精細的 C. 谷氨酰胺、大腸桿菌、嗜毛孢桿菌、結核分枝桿菌和鼠傷寒桿菌(圖7和補充表S2)。STALLION的表現分別優于ProAcePred。5種物種的MCC值為20.0% (B. subtilis, C. glutamicum, E. coli, G. kaustophilus and M. tuberculosis)MCC值為9.1%。STALLION比ProAcePred2.0具有更好的性能:(i)與ProAcePred2.0不同,我們根據系統分析的堆疊框架中排除了KNN特征編碼,該分析確定了交叉驗證過程中KNN編碼的過擬合性質(見下文部分)(2);(ii)與ProAcePred2.0簡單的特征選擇方法不同,我們采用了一個嚴格的過程,利用三個不同的評分函數和SFS獨立識別每個分類器的最優特征集,這是耗時的,(iii)不像ProAcePred2中的單一模型。我們的堆疊策略集成了5個基于樹的集成基線模型,從而導致更準確的Kace站點預測。
就像STALLION和最好的基于單一特征的模型的交叉驗證性能比較一樣,我們進行了獨立的測試。圖8顯示,所有6種的MCC均優于單一特征模型,其MCC高于2.39–10.68% B. 枯草屬植物,1.18–6.08%較高 C. 谷氨酰胺,大腸桿菌高4.0-9.5%,3.51–10.89%高2.5-8.7%,結核分枝桿菌3.51–10.89%高,鼠傷寒桿菌11.29–19.54%高。這些結果再次強調了我們的系統方法在模型構建中的意義。
在Kace預測中,KNN編碼的過擬合性質
KNN特征編碼被廣泛應用于PTM位點的識別,包括以往的Kace位點預測方法。與之前的研究類似,我們也將其納入了堆疊框架中的11個編碼中。初步結果表明,所有物種模型的預測性能均有顯著提高在交叉驗證期間與 STALLION合作。然而,獨立數據集對應的模型性能略優于隨機預測,且明顯低于 STALLION。因此,我們從堆疊框架( STALLION)中排除了KNN編碼。為了更好地理解這一現象,我們為每個物種開發了基于knn的五種樹狀模型,并進行了檢驗交叉驗證和獨立驗證性能(表2)。結果表明,5個分類器中有4個(RF、ERT、AB和XGB)的性能相似,略優于GB,平均auc分別為0.895、0.901、0.888、0.888、0.895和0.872 B. 精細的 C. 谷氨酰胺、大腸桿菌、腸桿菌、結核分枝桿菌和鼠傷寒桿菌。
6種植物的獨立檢驗指標分別為0.602、0.665、0.621、0.597、0.670和0.619。6個物種的訓練數據集與獨立數據集之間的性能差異(AUC差異)從22.46顯著增加到29.32%,明顯表明無論分類器如何,訓練過程中對KNN編碼的高估。由于KNN編碼方案的過擬合特性,我們強烈建議在將KNN編碼方案合并到任何需要大量計算的計算框架中之前,先測試KNN編碼的可移植性。
結論
本研究提出了一種堆疊框架,用于準確預測六種不同原核生物的Kace位點。STALLION采用了11種不同的特征編碼方案(分為3組)來編碼蛋白質片段。隨后,采用嚴格的特征選擇方法,為五種不同的基于樹的集成算法仔細選擇最優特征集,并為每個物種構建各自的基線模型。最后,得到5個基線模型,這些模型經過適當的分類器訓練,建立穩定的堆疊STALLION模型。我們提出的方法STALLION在6個不同物種的獨立數據集上識別Kace位點方面優于目前最先進的預測器。預計STALLION方法和一個基于堆疊的6個原核生物物種模型的用戶友好的web服務器將加快對假定的Kace位點的發現,并極大地幫助更廣泛的研究社區的功能表征。我們的研究確定了異質性和互補的特征我們將不斷嘗試研究其他信息特征,檢查它們的貢獻,并完善我們的預測平臺。總體而言,STALLION方法在Kace站點預測方面取得了穩健的性能,其預測性能需要在幾個方面進一步改進。最近報道了新的計算框架,包括基于dl的混合框架[86]和基于dl的方法,自動生成特征。在未來,我們將研究這些方法的可能性,并選擇合適的方法來進一步提高Kace站點的預測性能。
總結
以上是生活随笔為你收集整理的论文解读《STALLION:一个基于堆叠的原核赖氨酸乙酰化位点预测的集成学习框架》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FI财务会计全局设置
- 下一篇: ogre研究之第一个程序