學術咨詢服務,正當時......期刊天空網是可靠的職稱工作業績成果學術咨詢服務平臺!!!

核心論文發表正確認識環境監測選取代表樣點的重要性  

發布時間:2014-06-26所屬分類:管理論文瀏覽:1

摘 要: 論文摘要:研究中還發現,分類AH中的采樣點均顯示了較低的數值,平均匹配率為43%~60%。此類中的采樣點數據重構性較差,需選擇另外一種相對獨立的方法進行分析研究,進而對采樣點分類提供更合理的證據,并非只是單單從不同土地利用類型和專家知識而進行的分類檢索

  論文摘要:研究中還發現,分類AH中的采樣點均顯示了較低的數值,平均匹配率為43%~60%。此類中的采樣點數據重構性較差,需選擇另外一種相對獨立的方法進行分析研究,進而對采樣點分類提供更合理的證據,并非只是單單從不同土地利用類型和專家知識而進行的分類檢索。

  1決策樹模型的建立

  1.1采樣點概況專家從環境監測網絡選取了47個采樣點(圖1),并且根據硝酸鹽來源劃分為5類:溫室大棚區(G,11個點位)、農作物區(A,7個點位)、有地下水補給的農作物區(AGC,15個點位)、居民區(H,8個點位)以及農作物和園藝混合區(AH,6個點位)。

  1.2數據集合根據采樣點在監測網絡中的編碼、采樣時間,監測的地表水水體的10個物理化學參數(水溫T,EC20,pH,DO,O2,Cl-,NH+4-N,NO-2,NO-3、PO3-4)以及硝酸鹽來源分類等指標創建了數據集合,實例總數為3928。其中,數據集合中缺失的數據根據多重插補(MultipleImputation)法進行插補。分類AH以及G中的地表水站點在2002—2009年都具有較高的平均硝酸鹽濃度范圍,質量濃度分別為13.5~29.8mg/L和6.9~44.4mg/L;分類A以及AGC中的地表水站點的NO-3平均濃度次之,質量濃度分別為2~14mg/L和1~22.4mg/L;而分類H則為最低,NO-3平均質量濃度為0.4~3.6mg/L(以N計)變化。

  1.3決策樹模型決策樹模型的基本算法是貪心算法,其生成則是自上而下的遞歸過程通過不斷將樣本分割成子集來構造決策樹。算法的核心問題就是屬性選擇和剪枝策略。采用C4.5算法來建立決策樹模型[13]。C4.5對屬性的選擇基于信息理論(informationtheory)[14],通過計算信息增益來確定節點的分裂屬性,每個節點均選擇具有最大信息增益的屬性。這樣能夠使得樣本在依據該屬性進行分類時所需要的信息最小,可以有效減少分類所需的分裂次數。假設一個集合M,具有s個類別,其中個類在M中出現的比例為p(ci),那么M的信息熵為式中info(M|X)代表X的信息熵,V(X)代表屬性X的可能值的數量,Mj代表集合M的子集中屬性X的可能值的數量為j。最優屬性則是信息增益gain(X)的最大值。C4.5對決策樹的剪枝是自下而上,從樹最底層的節點,將符合修剪規則的剪掉,直到沒有節點滿足修剪規則為止。決策樹建立后,根據10次交叉檢驗法進行準確性評估。

  2結果與討論

  2.1模型輸出與專家分類對比利用47個地表水樣點的10個物理化學參數數據建立了決策樹模型,共有247個節點,樹形規模較大。實例數量為3928個,其中3142個實例與專家知識的分類情況一致,剩余的786個實例則被分為不同的類別。所以,此決策樹模型的輸出與專家分類的匹配率為80%。決策樹模型中每一硝酸鹽源類實例的分類情況見圖2。從圖2可見,分類A、AGC、G和H具有較高的匹配率(大于80%),表明使用建模的物理化學參數數據具有較高的可重構性。分類AH則具有較低的匹配率(50%),表明了這一類樣點的物理化學參數數據具有較低的可重構性,但是引起這一現象的原因目前不詳,需要結合后續的氮氧同位素方法進行深入研究。此外,每一硝酸鹽源的模型輸出與專家分類的匹配率都不是100%,說明部分實例與專家分類不相同。所以,了解決策樹模型中每一類實例的分類情況是比較有意義的。從圖2中可以看出分類A、AGC、G和H具有較高的匹配率(大于80%),因而這些分類中相應的實例被劃分為其他分類的百分比則相對較低。相反地,分類AH因具有較低的匹配率而導致其相當部分實例(大于40%)被決策樹模型重新分到A以及G這2個類別中。其原因可能是分類AH本身就是農作物和園藝混合區,此類中地表水樣點所構成實例不排除具有其他類別實例的特征。另外,47個采樣點的平均決策樹模型的輸出與專家分類的匹配率為43%~95%,有近3/4的樣點大于80%。研究中還發現,分類AH中的采樣點均顯示了較低的數值,平均匹配率為43%~60%。此類中的采樣點數據重構性較差,需選擇另外一種相對獨立的方法進行分析研究,進而對采樣點分類提供更合理的證據,并非只是單單從不同土地利用類型和專家知識而進行的分類檢索。

  2.2依據決策樹模型選擇代表性樣點如前所述,決策樹模型所評估的47個采樣點中,部分樣點數據重構性較差導致決策樹模型的輸出與專家分類的匹配率較低,需要其它方法進行校正。氮氧同位素方法已經廣泛應用于對硝酸鹽污染源判斷以及硝酸鹽遷移轉化過程的研究。所以,在47個樣點中選擇了30個具有代表性的樣點作為后續研究。另將30個優化后點位的數據集再次帶入模型中,該決策樹模型的輸出與專家分類的匹配率達到84%,優于前47個點位的模型輸出。然而分類AH中的采樣點仍顯示較低的匹配率(48%~63%)。根據此決策樹模型,縮減了工作量,選擇的樣點更具有代表性。其目的是通過后續方法更準確地對選擇的樣點進行分類,建立輸出結果更為精確的決策樹模型進而對監測網絡中其它未知源的樣點進行硝酸鹽來源的預測。

  3結論

  建立的決策樹模型成功地從47個采樣點的物理化學數據所組成的數據集中挖掘了未知的、有價值的信息。此決策樹模型評估了約有80%的樣點分類與專家知識分類相吻合,然而部分樣點則顯示了較低的匹配率,數據的可重構性較低。決策樹模型的輸出結果為選擇有代表性樣點進行后續研究提供了可靠的數據保證。

2023最新分區查詢入口

SCISSCIAHCI

7799精品视频