非結構化分析二

来源:互联网 发布:网络龙虎赌博押注技巧 编辑:程序博客网 时间:2024/05/17 23:44

決策邊界

二維分類

線性分類器  常用文本分類器都是線性分類器  樸素貝葉思  羅吉回歸  支持向量機  選擇分割面的方式不同

非線性分類器並不一定比線性分類器好 


貝葉思及其在郵件過濾中的應用

垃圾郵件問題

傳統的垃圾郵件過濾法 主要有關鍵詞法 特定詞語判斷  校驗碼法 計算文本校驗碼


2002 paul graham提出使用貝葉斯推斷過濾垃圾郵件  訓練集越大越準

貝葉斯推斷 

逆概問題 
 閉著眼睛拿袋子的球 先拿 然後用經驗觀察出概率

現實世界本身就是不確定的  人類的觀察能力有局限性

需要一個猜測或假設

1.算出各種不同猜測的可能性大小

2.算出可能性最大的猜測是什麼


貝葉斯公式


1拼寫糾正


求p(我們猜他想輸入的單詞|他實際輸入的單詞)


thew 他是想輸the 還是thaw? 可能性哪個大?  用貝葉斯公式來求他們各自的概率


p(h1|D)= P(D|h1)P(h1)/P(D)



2垃圾郵件

D郵件  由N個單詞組成 H+垃圾  H-正常郵件


p(H+|D)=

P(H-|D)=


P(D|H+)如何求?


knn 快速 準確性不錯

one-of problem

any-of problem  文章既是政治也是娛樂性質


考慮能拿到多少訓練集

什麼問題

數據乾淨?穩定?


層次分類器 hierarchi


bagging多個人投票


boosting前一個結果是下一個得輸入


概念飄移 concept drift



數據挖掘算法的組件化思想


數據挖掘算法太多


許多數據挖掘算法由五個組件形成

1模型 模式結構 >>>數據挖掘的輸出

數據挖掘得到的知識=pattern

例如線性回歸模型 層次聚類模型 頻繁序列模型


模型:對整個數據集的高層次 全局性的描述或總結 


模式:局部的 只對一小部分數據做出描述  ex購買ab的人可能經常買c


模型和模式是相互連繫的


1.數據挖掘任務

模式挖掘

尋找頻繁模式 異常點


2.預測建模:

描述建模  描述數據的全局特徵  不以單獨變量為主



3.評分函數   似然 誤差平方和 準確率

對數據集與模型的擬和程度進行評估


4搜索和優化方法

5.數據管理策略



關聯規則算法



數據集越大 計算效率變得越來越重要


apriori算法  規則模式發現   關聯規則   剪枝

k-means  聚類   多次疊代 每次疊代都求中心  分配中心點   評分函數為誤差平方和   搜索優化方法---梯度下降法

決策樹ID3算法  分類    樹裝模型   所有可能決策樹的組合  評分函數為信息增易  準確率   貪婪搜索優化方法
0 0
原创粉丝点击