非結構化分析二

来源：互联网发布：网络龙虎赌博押注技巧编辑：程序博客网时间：2024/05/17 23:44

決策邊界

二維分類

線性分類器常用文本分類器都是線性分類器樸素貝葉思羅吉回歸支持向量機選擇分割面的方式不同

非線性分類器並不一定比線性分類器好

貝葉思及其在郵件過濾中的應用

垃圾郵件問題

傳統的垃圾郵件過濾法主要有關鍵詞法特定詞語判斷校驗碼法計算文本校驗碼

2002 paul graham提出使用貝葉斯推斷過濾垃圾郵件訓練集越大越準

貝葉斯推斷

逆概問題
閉著眼睛拿袋子的球先拿然後用經驗觀察出概率

現實世界本身就是不確定的人類的觀察能力有局限性

需要一個猜測或假設

1.算出各種不同猜測的可能性大小

2.算出可能性最大的猜測是什麼

貝葉斯公式

1拼寫糾正

求p(我們猜他想輸入的單詞|他實際輸入的單詞)

thew 他是想輸the 還是thaw? 可能性哪個大? 用貝葉斯公式來求他們各自的概率

p(h1|D)= P(D|h1)P(h1)/P(D)

2垃圾郵件

D郵件由N個單詞組成 H+垃圾 H-正常郵件

p(H+|D)=

P(H-|D)=

P(D|H+)如何求?

knn 快速準確性不錯

one-of problem

any-of problem 文章既是政治也是娛樂性質

考慮能拿到多少訓練集

什麼問題

數據乾淨?穩定?

層次分類器 hierarchi

bagging多個人投票

boosting前一個結果是下一個得輸入

概念飄移 concept drift

數據挖掘算法的組件化思想

數據挖掘算法太多

許多數據挖掘算法由五個組件形成

1模型模式結構 >>>數據挖掘的輸出

數據挖掘得到的知識=pattern

例如線性回歸模型層次聚類模型頻繁序列模型

模型:對整個數據集的高層次全局性的描述或總結

模式:局部的只對一小部分數據做出描述 ex購買ab的人可能經常買c

模型和模式是相互連繫的

1.數據挖掘任務

模式挖掘

尋找頻繁模式異常點

2.預測建模:

描述建模描述數據的全局特徵不以單獨變量為主

3.評分函數似然誤差平方和準確率

對數據集與模型的擬和程度進行評估

4搜索和優化方法

5.數據管理策略

關聯規則算法

數據集越大計算效率變得越來越重要

apriori算法規則模式發現關聯規則剪枝

k-means 聚類多次疊代每次疊代都求中心分配中心點評分函數為誤差平方和搜索優化方法---梯度下降法

決策樹ID3算法分類樹裝模型所有可能決策樹的組合評分函數為信息增易準確率貪婪搜索優化方法

0 0