- 相關(guān)推薦
貝葉斯分類器
貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。
貝葉斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)
貝葉斯網(wǎng)絡是一個帶有概率注釋的有向無環(huán)圖,圖中的每一個結(jié)點均表示一個隨機變量,圖中兩結(jié)點間若存在著一條弧,則表示這兩結(jié)點相對應的隨機變量是概率相依的,反之則說明這兩個隨機變量是條件獨立的。網(wǎng)絡中任意一個結(jié)點X 均有一個相應的條件概率表(Conditional Probability Table,CPT),用以表示結(jié)點X 在其父結(jié)點取各可能值時的條件概率。若結(jié)點X 無父結(jié)點,則X 的CPT 為其先驗概率分布。貝葉斯網(wǎng)絡的結(jié)構(gòu)及各結(jié)點的CPT 定義了網(wǎng)絡中各變量的概率分布。
貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡。該網(wǎng)絡中應包含類結(jié)點C,其中C 的取值來自于類集合( c1 , c2 , ... , cm),還包含一組結(jié)點X = ( X1 , X2 , ... , Xn),表示用于分類的特征。對于貝葉斯網(wǎng)絡分類器,若某一待分類的樣本D,其分類特征值為x = ( x1 , x2 , ... , x n) ,則樣本D 屬于類別ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m) 應滿足下式:
P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , ... , P( C = cm | X = x ) }
而由貝葉斯公式:
P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)
其中,P( C = ci) 可由領域?qū)<业慕?jīng)驗得到,而P( X = x | C = ci) 和P( X = x) 的計算則較困難。
應用貝葉斯網(wǎng)絡分類器進行分類主要分成兩階段。第一階段是貝葉斯網(wǎng)絡分類器的學習,即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學習和CPT 學習;第二階段是貝葉斯網(wǎng)絡分類器的推理,即計算類結(jié)點的條件概率,對分類數(shù)據(jù)進行分類。這兩個階段的時間復雜性均取決于特征值間的依賴程度,甚至可以是NP 完全問題,因而在實際應用中,往往需要對貝葉斯網(wǎng)絡分類器進行簡化。根據(jù)對特征值間不同關(guān)聯(lián)程度的假設,可以得出各種貝葉斯分類器,Naive Bayes、TAN、BAN、GBN 就是其中較典型、研究較深入的貝葉斯分類器。
在具有模式的完整統(tǒng)計知識條件下,按照貝葉斯決策理論進行設計的一種最優(yōu)分類器。分類器是對每一個輸入模式賦予一個類別名稱的軟件或硬件裝置,而貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。它的設計方法是一種最基本的統(tǒng)計分類方法。
/>
/> 最小錯誤概率貝葉斯分類器
/> 把代表模式的特征向量x分到c個類別(ω1,ω2,...,ωc)中某一類的最基本方法
/> 貝葉斯分類器
/>
/> 貝葉斯分類器
/> 是計算在 x的條件下,該模式屬于各類的概率,用符號P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數(shù)值所對應的類別ωi就是該模式所屬的類。例如表示某個待查細胞的特征向量 x屬于正常細胞類的概率是0.2,屬于癌變細胞類的概率是0.8,就把它歸類為癌變細胞。上述定義的條件概率也稱為后驗概率,在特征向量為一維的情況下,一般有圖中的變化關(guān)系。當 x=x*時,P(ω1|x)=P(ω2|x)對于 x>x*的區(qū)域,由于P(ω2|x)>P(ω1|x)因此x屬ω2類,對于x
P(ω2|x),x屬ω1類,x*就相當于區(qū)域的分界點。圖中的陰影面積就反映了這種方法的錯誤分類概率,對于以任何其他的 x值作為區(qū)域分界點的分類方法都對應一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤概率的分類器
/> 貝葉斯分類器
/>
/> 一般情況下,不能直接得到后驗概率而是要通過貝葉斯公式
/> 公式
/>
/> 公式
/> 進行計算。式中的P(x│ωi)為在模式屬于ωi類的條件下出現(xiàn)x的概率密度,稱為x的類條件概率密度;P(ωi)為在所研究的識別問題中出現(xiàn)ωi類的概率,又稱先驗概率;P(x)是特征向量x的概率密度。分類器在比較后驗概率時,對于確定的輸入x,P(x)是常數(shù),因此在實際應用中,通常不是直接用后驗概率作為分類器的判決函數(shù)gi(x)(見線性判別函數(shù))而采用下面兩種形式:
/> 對所有的c個類計算gi(x)(i=1,2,...,c)。與gi(x)中最大值相對應的類別就是x的所屬類別。
/>
/> 最小風險貝葉斯分類器:由于客觀事物的復雜性,分類器作出各種判決時的風險是不一樣的。例如將癌細胞誤判為正常細胞的風險就比將正常細胞誤判為癌細胞的風險大。因此,在貝葉斯分類器中引入了風險的概念。在實際應用中根據(jù)具體情況決定各種風險的大小,通常用一組系數(shù)Cij來表示。Cij表示分類器將被識別樣本分類為ωi,而該樣本的真正類別為ωj時的風險。設計最小風險分類器的基本思想是用后驗概率計算將 x分類為ωi的條件風險
/> 貝葉斯分類器
/>
/> 貝葉斯分類器
/> 比較各Ri(x)的大小,與最小值對應的類別是分類的結(jié)果。評價這種分類器的標準是平均風險,它的平均風險最小。在實際應用時,后驗概率是難以獲得的,根據(jù)模式類別的多少和Cij的取值方式,可設計出各種分類器,例如模式為兩類時,判別函數(shù)為
/> 判別函數(shù)
/>
/> 判別函數(shù)
/> 如果選擇C11和C22為零,C12和C21為1,它就是兩類最小錯誤概率分類器。實際上,最小錯誤概率分類器是最小風險分類器的一種特殊情況。
/> 設計貝葉斯分類器的關(guān)鍵是要知道樣本特征 x的各種概率密度函數(shù)。條件概率密度函數(shù)為多元正態(tài)分布是研究得最多的分布。這是由于它的數(shù)學表達式易于分析,在實際應用中也是一種常見的分布形式。經(jīng)常使用參數(shù)方法來設計正態(tài)分布的判別函數(shù)。
/>
[貝葉斯分類器]相關(guān)文章:
1.貝葉斯分類器
2.生物信息學
【貝葉斯分類器】相關(guān)文章: