web数据挖掘学习1

来源:互联网 发布:全智允新公司js 编辑:程序博客网 时间:2024/05/22 09:03

万维网特征:

数据大,主题广泛内容丰富。

各种类型的数据(结构化表格,半结构化网页,无结构化文本,多媒体)

网络信息异构

权威网页

噪音:一张网页上的有用信息和噪声2、各界评论

万维网的动态性

数据挖掘:分类(监督学习)聚类(无监督学习)关联规则挖掘、序列模式挖掘

步骤:

预处理:噪音、数据的不完整性,方法:采样和选择特定属性来降低数据量降维

挖掘:

后续:将发现的模式进行评估,找到有用的模式

WEB挖掘

来源:结构挖掘超链接结构(搜索引擎)、内容挖掘网页内容(情感分析)、使用挖掘日志 (点击流数据的预处理)         

            

0 0
原创粉丝点击