1 決策樹算法
機器學習中,決策樹是一個預測模型;它代表的是對象屬性值與對象值之間的一種映射關系。樹中每個節點表示某個對象,每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應具有上述屬性值的子對象。決策樹僅有單一輸出;若需要多個輸出,可以建立獨立的決策樹以處理不同輸出。
從數據產生決策樹的機器學習技術叫做決策樹學習, 通俗說就是決策樹。
決策樹學習也是數據挖掘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結構,它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數據庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用于某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。 決策樹同時也可以依靠計算條件概率來構造。決策樹如果依靠數學的計算方法可以取得更加理想的效果。
1.1 決策樹的工作原理
決策樹一般都是自上而下的來生成的。
選擇分割的方法有多種,但是目的都是一致的,即對目標類嘗試進行最佳的分割。
從根節點到葉子節點都有一條路徑,這條路徑就是一條“規則”。
決策樹可以是二叉的,也可以是多叉的。
對每個節點的衡量:
1) 通過該節點的記錄數;
2) 如果是葉子節點的話,分類的路徑;
3) 對葉子節點正確分類的比例。
有些規則的效果可以比其他的一些規則要好。
1.2 ID3算法
1.2.1 概念提取算法CLS
1) 初始化參數C={E},E包括所有的例子,為根;
本文來源:http://www.nvnqwx.com/gongwen/xuexizongjie/266600.htm