国产蜜臀AV在线一区尤物_久久精品国产亚洲av麻豆甜_成人免费午夜无码视频在线播放_狠狠色噜噜狠狠狠888米奇视频

全國 [城市選擇] [會員登錄] [講師注冊] [機構注冊] [助教注冊]  
中國企業培訓講師

決策樹:構造決策樹,實現分類預測

2025-04-11 08:24:48
 
講師:傅一航 瀏覽次數:2519
   分類,就是確定某個對象屬于哪個預定義的目標類的過程。   在機器學習中,分類法有很多種,比如決策樹分類法、基于規則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法,等等。   而決策樹是最常見的一種簡單卻廣泛使用的分類技術。

  分類(lei),就(jiu)是確定某個對象屬于哪個預定義的目標類(lei)的過程。

  在機器(qi)學(xue)習(xi)中(zhong),分類(lei)(lei)法(fa)有很多種,比如決策樹分類(lei)(lei)法(fa)、基于(yu)規則的分類(lei)(lei)法(fa)、神(shen)經網(wang)絡、支(zhi)持向量機和樸素貝葉斯分類(lei)(lei)法(fa),等等。

  而(er)決策樹是最常見的一種簡單卻廣泛使(shi)用的分類技術。

  決策樹(shu),是一種樹(shu)形結構(gou),其中每個節點(dian)表示一個屬性(xing)(xing),每個分支代表屬性(xing)(xing)的取(qu)值,每個葉節點(dian)代表一種類別。

  第(di)一(yi)步:選擇一(yi)個屬性,構造根節(jie)點

  比如選(xuan)擇“月收入(ru)”構造(zao)根(gen)節(jie)點(dian),其中“月收入(ru)”有(you)三個取舍(she){低、中、高},因此根(gen)節(jie)點(dian)有(you)三個分支,這樣,形(xing)成(cheng)3個子結點(dian)(也就是(shi)有(you)3個子類別)。

  如下圖(tu)所示(shi),根(gen)節點(dian)中(zhong)(zhong)的數(shu)據表示(shi),總(zong)共有(you)14個(ge)(ge)人,其中(zhong)(zhong)違(wei)約(yue)用戶5個(ge)(ge),按照“月收入”進(jin)行分類(lei),可以(yi)分成3個(ge)(ge)子類(lei)別,其中(zhong)(zhong)“收入低”的類(lei)別共有(you)5個(ge)(ge)人,其中(zhong)(zhong)違(wei)約(yue)用戶3個(ge)(ge);“收入中(zhong)(zhong)”的用戶共有(you)4人,沒有(you)人違(wei)約(yue)。

  第二步:對于(yu)不純(chun)的子節點,選(xuan)擇(ze)一(yi)個屬性繼續(xu)生長

  對于“收入中”子(zi)節(jie)點(dian),只有一種用戶(非(fei)違約用戶),因(yin)此子(zi)節(jie)點(dian)是純的節(jie)點(dian),不需要繼續生長了。

  對于“收(shou)入低(di)”子節點(dian),違(wei)約用(yong)戶(hu)和非違(wei)約用(yong)戶(hu)都有,屬于不純節點(dian),因此還(huan)需要繼續生長。

  在“收入低(di)”子(zi)節點(dian)中,選擇(ze)一個屬性(xing)“性(xing)別(bie) ”繼(ji)續生(sheng)長,性(xing)別(bie)有(you)2個取值{男、女(nv)},因此子(zi)結點(dian)可以分(fen)解為2個子(zi)節點(dian)。“收入低(di)、男性(xing)”子(zi)節點(dian)中共有(you)3個人(ren),全(quan)(quan)部是(shi)(shi)違(wei)約用戶;“收入低(di)、女(nv)性(xing)”子(zi)節點(dian)共有(you)2個人(ren),全(quan)(quan)部都不是(shi)(shi)違(wei)約用戶。

  類似(si)地,對于“收入高(gao)“的子節點,選(xuan)擇(ze)“行(xing)業”屬性進行(xing)生長,也得到2個子節點。

  決策(ce)樹(shu):構造決策(ce)樹(shu),實現分類(lei)預(yu)測

  第(di)三步:停止決策樹的生長

  如上圖所示,當所有的子結點都(dou)滿足了停止生長的條件(jian)(比如所有子結點都(dou)是純的),決策樹就算完成(cheng)了。

  此時,所有的葉結點就是決策樹的分(fen)類類別。

  第四(si)步:評估分類質量(liang)

  決(jue)策樹構造好之后,需要(yao)評估模(mo)型的好壞(質量)。

  一般(ban)采用(yong)查準(zhun)率和查全率來衡量模型的(de)好(hao)壞,如上例所(suo)示。

  查(cha)準率:總共有(you)14個人,模型分(fen)類正(zheng)確(que)的(de)有(you)14個人,即查(cha)準率為100%。

  查全(quan)(quan)率:總共有5個人(ren)違約,模(mo)型查出來的也(ye)是(shi)5個人(ren),即查全(quan)(quan)率為(wei)100%。

  查(cha)(cha)準(zhun)率和(he)查(cha)(cha)全(quan)率都比(bi)較高,說明模型比(bi)較好(hao),可用。

  第(di)五(wu)步(bu):提取“違約用戶(hu)”的特(te)征(zheng)

  我們(men)將有違(wei)約用(yong)(yong)戶(hu)的(de)(de)葉(xie)結(jie)點用(yong)(yong)背景色(se)標識出來,可以發現那些(xie)違(wei)約用(yong)(yong)戶(hu)的(de)(de)特征:

  1) 月(yue)收(shou)入(ru)低,且性別(bie)為男(nan);

  2) 月收入高,且在皮具(ju)行業工作(zuo)。

  第(di)六步:預(yu)測(ce)新用戶預(yu)測(ce)

  當(dang)決策樹模型構造(zao)好以后(hou),就可(ke)以用來進(jin)行預測(ce)。

  當(dang)一個新的申(shen)請貨款(kuan)的用(yong)戶(hu)(hu)來貨款(kuan)時,可(ke)以根據決策(ce)樹模型,來評估用(yong)戶(hu)(hu)最有可(ke)能屬于(yu)哪一個節(jie)點,如(ru)果新用(yong)戶(hu)(hu)所屬葉(xie)節(jie)點的違約風險(xian)極高,則應該(gai)拒絕給新用(yong)戶(hu)(hu)貨款(kuan);否則可(ke)以進行(xing)放貨。

  決策樹的構造,理解起來是(shi)很(hen)簡單的。而(er)且,容易生成或提取(qu)可識別(bie)的類(lei)別(bie)特征。

  當然,其(qi)背后的實現算法(fa)還有(you)很(hen)多需要思考的,比如應該選擇(ze)哪個屬性來進行(xing)生長?屬性的分支(zhi)取值(zhi)如何(he)確定?決(jue)策樹生長的停(ting)止條件如何(he)確定?這(zhe)些內容對于開(kai)發者和算法(fa)設計(ji)者很(hen)重(zhong)要,請關注我(wo)后續的文章。



轉載://bamboo-vinegar.cn/zixun_detail/111850.html

傅一航
[僅限會員]