學術咨詢服務,正當時......期刊天空網是可靠的職稱工作業績成果學術咨詢服務平臺!!!

化學模式識別方法在中藥質量控制研究中的應用進展

發布時間:2022-03-15所屬分類:醫學論文瀏覽:1

摘 要: 摘 要:化學計量學是以計算機和近代計算技術為基礎的一門新興交叉學科,在中藥鑒別、定性表征、質量控制、組效關系等研究中均具有廣泛應用,尤其在中藥的質量控制與評價研究中具有重要意義。綜述近年來化學計量學中化學模式識別方法,包括 2 種無監督模式識別方法(聚類

  摘 要:化學計量學是以計算機和近代計算技術為基礎的一門新興交叉學科,在中藥鑒別、定性表征、質量控制、組效關系等研究中均具有廣泛應用,尤其在中藥的質量控制與評價研究中具有重要意義。綜述近年來化學計量學中化學模式識別方法,包括 2 種無監督模式識別方法(聚類分析、主成分分析)和 4 種有監督模式識別方法(簇類獨立軟模式法、偏最小二乘法判別分析、支持向量機、人工神經網絡),并從產地、基原、炮制、真偽等多個方面總結了化學模式識別方法在中藥質量控制研究中的應用。

化學模式識別方法在中藥質量控制研究中的應用進展

  關鍵詞:化學模式識別;化學計量學;質量控制;中藥;聚類分析;主成分分析;簇類獨立軟模式法;偏最小二乘法判別分析;支持向量機;人工神經網絡

  中藥具有系統的科學理論、獨特的辨證論治思想,歷經了數千年的發展和應用,蘊含著深厚的人文底蘊和科學內涵,在中醫藥理論指導下引入現代科學、實現中藥現代化是中藥發展的必由之路[1]。中藥質量控制與評價是中藥現代化研究的關鍵問題之一,是實現中藥標準化的重要基礎,然而中藥本身化學成分復雜,同時基原品種、產地來源、生長環境、采收季節、加工炮制工藝等諸多因素進一步增加了中藥質量控制與評價研究的難度。隨著現代科學技術特別是儀器分析、計算機科學、化學計量學等學科的迅速發展,中藥質量控制與評價研究的新思路與新方法不斷出現,有效地促進了中藥標準化研究。針對中藥本身的復雜性及特有的藥性理論基礎,在中醫藥理論指導下尋找一種適用于中藥特點的質量控制與評價方法,解決中藥質量控制的數據化、標準化難題,并在此基礎上用科學的語言闡述中藥的基礎理論是中藥現代化亟待解決的關鍵問題之一。為完善中藥質量標準體系,促進中醫藥產業的健康發展,劉昌孝院士[2-3]提出中藥質量標志物(Q-markers)的這一新概念,為規范中藥質量的研究和標準的建立奠定了基礎,有利于中藥全程質量控制和質量溯源體系的建立。

  化學計量學是以計算機和近代計算技術為基礎的一門新興交叉學科,通過統計學或數學方法在化學體系的測量值與體系的狀態之間建立聯系,在中藥鑒別、定性表征、質量控制、組效關系等研究中均有廣泛應用,尤其在中藥的質量控制與評價研究中具有重要意義[4];瘜W模式識別是化學計量學的重要組成部分,也是篩選中藥 Q-markers 的重要數學方法,按照有無訓練可劃分為無監督的模式識別和有監督的模式識別方法。前者指在無樣品類別信息的情況下,進行學習或訓練,獲取分類信息的方法;后者則根據樣品特征和已知類別的樣品(訓練集),用特定的方法或模型進行學習或訓練,從而建立分類模型,再根據獲取的分類模型和未知樣品的特征,對未知樣品進行分類[5]。其中無監督的模式識別方法包括聚類分析(cluster analysis,CA)、主成分分析(principal component analysis,PCA)等。有監督的模式識別方法包括簇類獨立軟模式法(soft independent modeling of class analogy,SIMCA)、判別分析(discriminant analysis,DA)、偏最小二乘法判別分析(partial least squares discriminant analysis, PLS-DA)、人工神經網絡(artificial neural networks, ANNs)等[6-7]。本文就近年來化學模式識別方法在中藥質量控制方面的應用展開綜述,為中藥質量控制研究提供參考。

  1 化學模式識別

  1.1 無監督模式識別

  1.1.1 CA CA 屬于無監督模式識別方法,將樣本數據在沒有先驗知識的前提下,基于樣本所表現的變量特征,按照相似度進行歸類。根據聚類途徑不同,CA 可分為系統聚類法(HCA)和動態聚類法[8]。常用的 CA 方法包括 HCA、K-均值聚類分析和 Ward’s method 等,其中 K-均值聚類分析屬于典型的劃分聚類分析方法,其首先給予數據集初始劃分,再以此為起始點,通過迭代不斷調整樣本歸屬,最終達到最優目標函數,進而獲取聚類結果。Ward’s method 屬于分層聚類分析方法的一種,其著眼于將聚類分析作為 1 個方差分析的問題,而不是通過測量距離或者關聯度,這種方法不需要計算集群中心,而是最小化群集方差(相對于每個群集的質心)[9-10]。 CA 常用于數據的初步探索性分析,具有直觀、結論形式簡明的優點[11]。然而聚類之前須對變量進行預處理,采用不同的標準化方法獲取的聚類結果不同。當樣本量較大時,聚類結論存在一定的困難,無法對分類結果的準確性進行預測[3,11]。

  1.1.2 PCA PCA[12]為雙線性模型方法,利用方差最大原則,對原始數據所包含的多個自變量進行線性擬合,以新的低維變量代替原始高維變量,即主成分,各主成分之間互不相關,從而這些主成分能夠反映原始變量的絕大部分信息,且所含的信息互不重疊,進而實現數據的降維。高維數據可以通過以下方程進行降維。 X=CST +E X 為原始數據,C 為得分矩陣,ST為載荷矩陣轉置陣,E 為誤差矩陣

  每個樣本對象在每個主成分上都有 1 個值,同時每個變量在每個主成分上均有 1 個載荷值,因此 PC1 與 PC2 的雙標圖(biplot)描述了最大的數據差異,并提供了樣本與荷載變量的比較,可用于獲取樣本聚類的相似性以及載荷變量間、載荷變量與樣本之間的關聯等相關信息[13]。PCA 屬于探索性數據分析方法(exploratory data analysis)的范疇[14],其采用少數綜合變量來代替原始的眾多變量,具有可信度高、靈活性強,側重于綜合評價信息的貢獻影響力的特點[3,11]。但是當分組過多時,PCA 可視化的分類效果則會大大降低;原始數據間的相關性較弱時,無法進行良好的降維,獲取的主成分無法綜合地反映原始變量信息;當存在許多未被檢測的變量時,如代謝組學研究中代謝產物只能在某些樣本中發現,PCA 獲取的分析結果也會存在問題[15]。然而 PCA 仍然是一種良好的探索性數據分析方法,可為有監督的模式識別方法奠定分類依據。近年來,該方法在中藥質量控制方面具有廣泛的應用。

  1.2 有監督模式識別

  1.2.1 SIMCA SIMCA[16]是一種有監督的數據分類方法,每個類別獨立使用 PCA 建立模型,保留足夠數量的主成分,進而產生了可用于每個類別的專屬模型。因此,一類空間構建的邊界可用于判別擬合分類模型樣本與在選定置信區間內不屬于該類別的樣本。每個預測樣本的信息可被劃分成 2 個分量,一部分通過分類模型解釋,另一部分通過殘差解釋,以表明預測樣本與模型之間的擬合情況。1 個 SIMCA 模型由 1 個 PCA 模型集組成,數據集中每個分類均有 1 個 PCA 模型,每類可具有不同的主成分數目,主成分數目取決于相應類別的數據。每個 PCA 子模型包含了所有 PCA 通常部分,如均值向量、縮放信息、預處理(平滑、衍生等)。SIMCA 是建立在 PCA 基礎上的有監督模式識別方法,原始數據的變量數和樣本數的比例并非十分關鍵,在計算過程中 PCA 對其結果起到決定性作用。復雜的數據和不確定的測量信息均會導致顯著主成分數目的估計困難,對于每個目標分類,主成分過多或者過少均會降低 SIMCA 模型的分類及預測能力,該缺點在一定程度上影響了 SIMCA 的廣泛使用[17-18]。

  1.2.2 PLS-DA PLS 是一種尋找獨立變量 X 與獨立變量 Y 之間基本聯系的方法,這個模型不僅考慮了 X 變量,同時也考慮了 X 變量與 Y 變量之間的關聯,以 PCA 為數學基礎,能夠在自變量存在多重相關性的條件下進行回歸建模。PLS-DA 是 PLS 的一種轉化形式,采用分類響應變量 Y 來提高類別間的分離,計算校正模型的數據包括校正誤差均方根、交叉驗證誤差均方根及測定的相關系數[13]。 PLS-DA 是一種有監督的模式識別方法,適用于區分兩類及更多類別的樣本,同時具備線性判別分析的分類能力又兼具 PLS 降維、降噪的優勢[19]。此外, PLS-DA 的優勢還在于其更強大的解釋能力,尤其是在原始變量方面。

  1.2.3 支持向量機(support vector machine,SVM) SVW 是一種通用的,特別是用于非線性數據的分析方法,基于使用 1 個核函數將原始數據映射到 1 個高維特征空間,并在該空間構建最佳的分類超平面[20]。SVM 主要思想是針對兩種分類問題,目標是在高維空間尋找 1 個最優分類超平面,以保證最小的分類錯誤率。SVM 建模的目的是確定在 2 個分類之間具有最大余量的最佳超平面,其可以應用于線性和非線性數據集和分離多個類。支持向量機判別分析(SVMDA)是建立在 SVM 基礎上的一種有監督的分類方法,通過在 2 個類之間生成超平面邊界,將樣本表示為空間中的點,超平面使類之間的距離最大化,并且與校準集中的樣本的概率分布無關。SVMDA 包括 v-支持向量分類(v-support vector classification)和 c-支持向量分類(c-support vector classification)2 種分類方法,可較好地解決小樣本、高維數、非線性和局部極小點等問題[21]。然而,這種方法通過適當的核函數將原始數據指向了更高維的空間[19]。

  1.2.4 ANNs ANNs 也稱為神經網絡,是 1 個有向拓撲結構和學習規則的動態處理系統,具有自學習、自適應、聯想存儲、高速尋找優化解等功能優勢[22]。目前應用最普遍的 ANNs 是誤差反向傳播人工神經網絡(back propagation artificial neural network, BP-ANN)、自組織映射神經網絡(self organising maps,SOMs,也稱 Kohonen 網絡)和對偶傳播人工神經網絡(counter-propagation artificial neural networks,CP-ANNs)。BP-ANN 是典型的多層網絡,分為輸入層、隱含層和輸出層,層與層之間多采用全互連方式,同一層單元間不存在相互連接[23]。 Kohonen 網絡是自組織競爭神經網絡的一種,該網絡為無監督性學習網絡,能夠識別環境特征并自動聚類;CP-ANNs 是基于 Kohonen 網絡發展起來的,同時能夠處理非監督性和監督性分類問題[7];蛩惴(遺傳算法)是一種自適應啟發式群體型、概率性迭代全局收斂算法,可優化神經網絡中神經元與迭代次數,使神經網絡能夠快速收斂,并且可以避免過訓練問題[24-25]。此外,徑向基函數(radial basis function,RBF)神經網絡,在中藥質量、指紋圖譜研究及藥材真偽優劣鑒別中也得到了廣泛的應用[26]。

  2 應用軟件

  SPSS 統計軟件是目前最常用的統計分析軟件之一,可實現 PCA、CA、Ward’s method、RBF 神經網絡、因子分析等多種模式識別分析[26-27]。矩陣實驗室(Matlab)具有語言簡潔緊湊、運算符豐富、程序設計自由度大、程序可移植性好、數據可視化簡單、擁有強大的工具箱等特點,是一種實用性強的科學計算工具,通過程序的編寫及工具盒可實現大量的化學模式識別分析,如 PCA、BP-ANN、 Kohonen 網絡、CP-ANNs、SVM、PLS-DA、SIMCA、線性判別分析(LDA)、K-最近鄰法(KNN)等,其中 Kohonen 網絡、CP-ANNs 可通過 Kohonen and CP-ANN toolbox 實現(http://michem.disat.unimib. it/chm/download/download.htm)[13,28-29]。多元數據分析軟件 SIMCA 是 1 款過程分析和質量設計的工具軟件,能夠從眾多數據中獲取關鍵信息,可實現 PCA、CA、PLS-DA、正交偏最小二乘法判別分析(OPLS-DA)、SIMCA 等多種模式識別分析,該軟件無需程序編寫,具有操作簡單、方便快捷的特點[30-31]。

  相關知識推薦:中草藥英文版是ei版嗎?

  3 化學模式識別在中藥質量控制中的應用

  3.1 產地來源

  我國疆域遼闊,具有復雜的自然地理環境,日照、溫度、土質等環境不盡相同,為藥用植物及動物的生長提供了必要的有利條件,同時也使中藥材的生產和質量具有一定的地域性[32]。這也是古今醫家都非常重視“道地藥材”的緣故。如表 1 所示,近年來化學模式識別方法廣泛應用在中藥不同產地的研究中,常聯合的儀器分析方法包括 HPLC、核磁共振光譜(NMR)、紅外光譜(IR)、直接電離質譜(DI-MS)、電感耦合等離子體質譜法(ICP-MS)等,化學模式識別方法涉及 CA、PCA、DA、KNN、 PLS-DA、最小二乘支持向量機(LS-SVM)等,其中最常用的化學模式識別方法為 PCA。

  3.2 基原

  中藥基原是影響中藥質量與療效的最基本的內在因素之一。中藥基原物種混亂直接影響到臨床用藥的有效性和安全性,對其進行基原鑒別,從源頭上控制質量,是中藥資源開發、中藥生產及中藥質量標準制定的必要環節[43]。葛根與粉葛長期以來均作為葛根藥材使用,兩者基原不同,分別來源于豆科植物野葛 Pueraria lobta (Willd.) Ohwi 和甘葛藤 Pueraria thomsonii Benth. 的干燥根,自《中國藥典》 2005 年版開始將二者單獨列出[44]。Wong 等[19]采用高效薄層色譜法(HPTLC)與 UPLC 對葛根和粉葛進行分析,利用KNN、PLS-DA、PCA-DA、SVM-DA、 SIMCA 5 種化學模式識別方法比較 2 種色譜法的分類效果,結果顯示 HPTLC 與 UPLC 分類模型結果具有相似性,前 4 種模式識別方法對于葛根和粉葛具有良好的識別率,而 SIMCA 模型的分類效果最差。蘇浬等[45]采用 HPLC 結合 PCA,對貢菊、滁菊、杭菊和亳菊 4 種基原的藥用菊花中特征成分進行分析,該方法能大體上將不同來源的菊花按基原進行分類,為菊花的基原鑒定提供了研究思路。

  3.3 炮制

  中藥炮制蘊含著中醫整體觀和辨證論治理念,是中醫藥學的特色之一,也是中藥臨床應用的特點和必然要求,中藥通過炮制可達到增效減毒、改變藥物性能、引藥入經及擴大應用范圍等目的[46]。 Zhou 等[47]采用 HPLC 指紋圖譜結合 HCA、PCA、 PLS-DA 3 種化學模式識別方法對炮制前后的播娘蒿種子進行了比較分析,研究表明生品與炮制品的化學成分具有一定的差異性,炮制后產生了許多新的化學成分,并獲取了重要差異成分,進而闡明了播娘蒿的炮制機制。孫立麗等[48]建立了何首烏 UPLC 指紋圖譜,并在此基礎上成功建立了 5 種化學模式識別(PCA、CP-ANN、PLS-DA、SVMDA、 CP-ANN)模型,并采用有監督的 CP-ANN 模式識別模型下獲取的 Kohonen 權重值為研究指標,探討了何首烏炮制前后的整體化學成分變化,為何首烏的炮制研究提供了研究思路與實驗方法。

  3.4 真偽鑒別

  中藥真偽問題是影響中藥質量的另一重要因素,“真”即正品,指國家藥品標準所收載的中藥品種,“偽”即偽品,凡不符合國家藥品標準規定的中藥品種均應視為偽品[49]。女貞子來源于木犀科植物女貞 Ligustrum lucidum Ait. 的干燥成熟果實,收載于《中國藥典》2015 年版一部中,為養陰常用中藥之一。日本女貞 Ligustrum japonicum Thunb. 與女貞來源于同科植物,果實性狀極為相似,但日本女貞誤用后可引起中毒,曹運姣等[50]建立了紫外譜線組法-化學模式識別鑒別女貞子與日本女貞的方法,在 PCA 的基礎上對樣本進行 Q 型聚類分析,結果表明二者之間有顯著性差異,且分類界限明顯;建立了 Fisher 判別分析,可用于女貞子與日本女貞子的鑒別。

  3.5 其他應用

  Shan 等[51]采用化學模式識別方法綜合評價 2~ 6 年生于不同季節采收的人參 HPLC 指紋圖譜,建立的 PCA、HCA 2 種化學模式識別方法為不同生長年限及采收季節的人參樣本提供了質量比較和有效的區分方法。顧志榮等[52]利用 13C-NMR 特征圖譜結合 PCA、模糊聚類分析(FCA)建立不同生長年限當歸的鑒別與質量評價方法,能夠對來源于不同生長年限的當歸進行快速、準確地鑒別。湯彥豐等[53] 利用 BP-ANN 對傅里葉紅外色譜法數據進行處理,該方法可以有效地鑒別野生和栽培的紫花地丁。

  3.6 化學模式識別應用過程中的技術問題

  3.6.1 數據預處理方法 在建立化學模式識別分類模型之前,通常要對原始數據進行數據預處理,使數據更有利于進行分類運算。標度化方法可使所有變量的變化幅度處于同一個水平上,常用的標度化方法包括范圍標度化、自標度化、標準化、變換法、組合法等,其中標準化預處理方法又包括面積歸一化、最大歸一化等[54]。不同的情況下可采用不同的數據預處理方法,采用的方法取決于數據的來源、問題的類型、化學或物理因素等,不可統而論之[55]。基于 Matlab 的化學模式識別工具盒中,常用的數據預處理方法有范圍標度化、自標度化、中心化等。 PLS_Toolbox 具有強大的數據預處理功能,除常用的標度化方法外,還包括平滑、衍生、去趨勢化、基線(加權最小二乘法)等預處理方法來解決噪音、偏移和基線問題;數據選擇類型包括絕對值、log10;多種數據過濾方法包括正交信號校正方法、廣義最小二乘加權等[56]。

  3.6.2 其他 數量充足、來源可靠、具代表性的中藥樣本是建立具有廣泛應用價值、操作簡便規范、優良的識別與預測能力化學模式識別模型的前提條件。建立化學模式識別模型所選的樣本量依賴于所選模型、研究的主體、待解決的中藥問題等多種因素。同時,由于化學模式識別方法各有其優缺點,若僅使用單一方法則難以避免局限性,因此對于中藥質量控制研究,需要建立多種模式識別方法加以互補以達到最佳的質量控制結果。

  4 結語與展望

  中藥本身化學成分復雜,基原品種、產地來源、生長環境、采收季節、加工炮制工藝等諸多因素進一步增加了中藥質量控制與評價研究的難度。由于中藥本身的特殊性,僅靠傳統外觀鑒別、顯微鑒別及少數有效成分分析鑒定中藥的真假優劣具有一定的不準確性[57];瘜W模式識別技術可對 HPLC、 UPLC-Q-TOF/MS、IR、NMR 等多種現代儀器分析獲取的數據進行客觀分析,既可對多個指標進行統計分析,又可將整個圖譜信息數量化,進而使其可以被計算機識別與處理,從而可以更加客觀地反映中藥的質量信息,達到全面控制中藥質量的目的;瘜W模式識別技術已在中藥質量控制研究中得到了廣泛應用,然而中藥的化學模式識別研究工作依然存在很多問題,獲取的中藥數據量不夠或樣本信息不可靠是最常見的問題之一,但是毋庸置疑的是化學模式識別技術是一種有效評價中藥質量的方法。相關中藥樣品庫和數據庫的建立,如中藥多基原藥材的鑒別方法數據庫,以及來源信息確切的中藥購置渠道,將大大推進化學模式識別技術在中藥質量控制研究工作的順利展開,對中藥的質量控制與評價具有重要現實意義。——論文作者:孫立麗 1 ,王 萌 2 ,任曉亮 1*

  參考文獻

  [1] 笪舫芳, 朱 華, 劉 穎. 中藥現代化之路: 向左走, 向右轉 [J]. 中國醫藥導報, 2012, 9(16): 122-123.

  [2] 劉昌孝 , 陳士林 , 肖小河 , 等 . 中藥質量標志物 (Q-Marker): 中藥產品質量控制的新概念 [J]. 中草藥, 2016, 47(9): 1443-1457.

  [3] 劉昌孝. 基于中藥質量標志物的中藥質量追溯系統建設 [J]. 中草藥, 2017, 48(18): 3669-3676.

  [4] 馬詩瑜, 沈 嵐, 洪燕龍, 等. 化學計量學在中藥定量表征中的應用 [J]. 世界科學技術—中醫藥現代化, 2014, 16(12): 2700-2707.

  [5] 吳功煌, 史新元, 喬延江. 近紅外模式識別技術在中藥質量控制中的應用研究進展 [J]. 世界科學技術—中醫藥現代化, 2010, 12(2): 265-270.

  [6] 汪小莉, 李 嬛, 秦昆明, 等. 近紅外光譜學與化學計量學在中成藥液體制劑過程分析中的應用 [J]. 中草藥, 2013, 44(15): 2165-2171.

  [7] Ballabio D, Consonni V, Todeschini R. The Kohonen and CP-ANN toolbox: A collection of MATLAB modules for self organizing maps and counterpropagation artificial neural networks [J]. Chemom Intell Lab Syst, 2009, 98(2): 115-122.

  [8] 邱新華, 唐鐵鑫, 劉 燕, 等. 幾種模式識別方法用于中藥揮發油紅外光譜法鑒別的比較研究 [J]. 中國藥房, 2015, 26(21): 2986-2988.

  [9] 汪 濤, 鮑遠程. 聚類分析在中藥復方研究中的應用 [J]. 成都中醫藥大學學報, 2013, 36(2): 121-122.

  [10] Lee A, Willcox B. Minkowski generalizations of ward’s method in hierarchical clustering [J]. J Classif, 2014, 31(2): 194-218.

  [11] 李新蕊. 主成分分析、因子分析、聚類分析的比較與應用 [J]. 山東教育學院學報, 2007(6): 23-26.

  [12] 龐晶瑤, 王伽伯, 馬致潔, 等. 基于化學指紋圖譜和生物毒性檢測的何首烏質量評控 [J]. 中草藥, 2014, 45(23): 3392-3396.

  [13] Ni Y, Mei M, Kokot S. One-and two-dimensional gas chromatography-mass spectrometry and high performance liquid chromatography-diode-array detector fingerprints of complex substances: A comparison of classification performance of similar, complex Rhizoma Curcumae samples with the aid of chemometrics [J]. Anal Chim Acta, 2012, 712(2): 37-44.

  [14] Gad H A, El-Ahmady S H, Abou-Shoer M I, et al. Application of chemometrics in authentication of herbal medicines: A review [J]. Phytochem Anal, 2013, 24(1): 1-24.

  [15] Brereton R G. Chemometrics for Pattern Recognition [M]. Chichester: John Wiley & Sons, Ltd., 2009.

  [16] Zhuang H, Ni Y, Kokot S. Combining HPLC-DAD and ICP-MS data for improved analysis of complex samples: Classification of the root samples from Cortex moutan [J]. Chemom Intell Lab Syst, 2014, 135(11): 183-191.

  [17] 龍草芳. SIMCA 分類法中主成分分析算法的研究 [J]. 數字技術與應用, 2017(4): 145-146.

  [18] 徐 路, 付海燕, 姜 寧, 等. 基于偏最小二乘回歸的類模型方法用于中藥牛黃的真偽鑒別 [J]. 分析化學, 2010, 38(2): 175-180.

  [19] Wong K H, Razmovski-Naumovski V, Li K M, et al. Differentiating Puerariae Lobatae Radix and Puerariae Thomsonii Radix using HPTLC coupled with multivariate classification analyses [J]. J Pharm Biomed Anal, 2014, 95(3): 11-19.

2023最新分區查詢入口

SCISSCIAHCI

7799精品视频