文本聚类分析效果评价及文本表示研究

来源:互联网 发布:地磁场飞行器知乎 编辑:程序博客网 时间:2024/04/28 19:35

简单信息

论文专业:计算机软件与理论
论文主题:文本聚类 聚类分析 聚类评价 文本表示 信息检索
论文分类:TP391.3 TP317.2
论文形态:共 82 页 约 66,174 个字符 约 5.822 M内容
其他说明:论文作者及其毕业院校、导师姓名、撰写年份等隐私信息已被隐藏
论文阅读:下载全文
<SCRIPT type=text/javascript><!--google_ad_client = "pub-4392566955186596";google_ad_slot = "1162072694";google_ad_width = 468;google_ad_height = 15;//--></SCRIPT><SCRIPT src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type=text/javascript></SCRIPT><SCRIPT> window.google_render_ad(); </SCRIPT><IFRAME name=google_ads_frame marginWidth=0 marginHeight=0 src="http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-4392566955186596&amp;dt=1225707090875&amp;lmt=1225707090&amp;prev_slotnames=3137013665%2C4812076432&amp;output=html&amp;slotname=1162072694&amp;correlator=1225707090546&amp;url=http%3A%2F%2Fedu.nulog.cn%2Fdetail.htm%3F240601&amp;ea=0&amp;ref=http%3A%2F%2Fwww.google.cn%2Fsearch%3Fhl%3Dzh-CN%26newwindow%3D1%26q%3D%25E6%2596%2587%25E6%259C%25AC%25E8%2581%259A%25E7%25B1%25BB%26start%3D20%26sa%3DN&amp;frm=0&amp;ga_vid=1066849203.1225707091&amp;ga_sid=1225707091&amp;ga_hid=299699192&amp;flash=9.0.124.0&amp;u_h=900&amp;u_w=1440&amp;u_ah=862&amp;u_aw=1440&amp;u_cd=32&amp;u_tz=480&amp;u_java=true" frameBorder=0 width=468 scrolling=no height=15 allowTransparency></IFRAME>

内容摘要

随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。在这种背景下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。在与文本聚类分析相关的研究中,可用的算法种类众多且难以选择与比较,因此对文本的聚类结果进行有效评价非常关键。目前,评价方法比较混乱,缺乏得到普遍认同的评价方法及与之相关的深入研究。这导致在实际应用中选择算法、选择参数时缺乏一个科学的依据。在研究与实际应用中,评价文本聚类分析效果有哪些指标,各有什么特性,不同的文本聚类分析算法效果哪个好哪个不好,哪个更好,怎样才能更好,这些都是需要研究人员进行回答的问题。

这些问题归结到底都是一个文本聚类效果的评价问题。本文围绕文本聚类效果评价、提高文本聚类分析效果这个目的,主要完成了文本聚类分析评价以及文本表示模型研究两个方面的工作,论文的具体工作内容包括:

(1)影响文本聚类效果的因素分析。详细分析了可能影响文本聚类分析效果的三个因素:文本表示模型、距离度量方法和聚类分析算法:

(2)详细介绍了两类评价标准下对应的具体评价指标,清晰界定了基于人工判定的指标和基于目标函数的指标两大类别,分清各自的应用场景,着重介绍基于人工判定的系列指标以及其特性,推荐使用熵和基于类的F值两个指标;

(3)实现了包括文本解析、文本聚类分析、文本聚类效果评价分析三个模块的实用软件包,软件包实现了多种文本解析方法、聚类分析算法及评价指标,三个模块可各自独立使用,可扩展性强:

(4)应用软件包进行实验分析。主要分析HAC算法中大类现象的出现位置、原因和启示,对HAC与K-Means算法进行效能分析、对多种影响因素的影响力进行比较分析,对主要聚类算法效果进行横向比较。主要结论包括:a)文本HAC算法的聚类效果是一个先变好后变坏的过程,算法先按照文本语义逐渐凝聚簇直至临界点,临界点后出现大类倾向,质量丌始变坏。文本表示与文本语义之间的不完全对应造成了这种现象,解决方案建议在临界点之前停止簇合并避免质量变差或者淘汰干扰簇等;b)英文文本处理中的Lower处理以及不进行Stem处理可以适当提高最终聚类效果的质量;c)VSM模型中的ltc特征权重度量方法相对于nnn、Lnu、OKAPI中的BM25等方法更优:d)在本文的实验中通过适当的阈值设置,NN算法可以产生高质餐的小簇,从整体效果上而言K-Means基本优于HAC、K-Means Bisecting和NN聚类算法;

(5)对文本表示进行探索性的研究。文本聚类归根结底是语义相同或者相近的同质

文本聚成一个团,文本表示是决定文本能否按照语义正确聚到一起最綦本的决定因素。本文针对VSM文本表示模型的特性与缺陷进行分析,引入序关系提出了文本的图表示模型并予以实验检,尝试打破特征项的独立性假设寻找语义单元。 本文的主要贡献有三点:(1)确立了文本聚类评价指标体系,结合聚类评价指标体系对影响文本聚类效果的因素进行深入研究,实现了一个有益的可扩展软件包:(2)应用聚类效果评价技术分析了文本聚类分析中的大类现象,完成系列比较实验,得到有益的结论与算法改进意见;(3)在文本表示方面做出了前瞻性的探索研究。

全文目录

文摘
英文文摘
论文说明:图目录及表目录
声明及论文版权使用授权书
第一章 引言
第二章 文本聚类效果影响因素
第三章 文本聚类效果评价指标体系与应用特性
第四章 文本聚类算法包实现与主要算法的实验分析
第五章 文本表示模型的探讨
第六章 结束语
参考文献
致谢
作者简历

相关论文

  1. 基于本体论的智能检索研究,TP391.3
  2. 本体论在信息检索中的应用研究,TP391.3
  3. 基于内容的音乐检索——哼唱检索理论与技术研究,TP391.3 TP393.09
  4. XML结构索引技术及查询优化研究,TP391.3
  5. 中文全文检索技术研究,TP391.3
  6. 数据流自适应查询处理技术,TP391.3 TP311.131
  7. 基于内容的3D模型检索技术研究,TP391.3 TP311.131
  8. 基于互联网的知识检索和管理的研究,TP391.3
  9. 依存语言模型在信息检索中的应用研究,TP391.3
  10. 藏文字处理系统的研究与实现,TP317.2 TP391.1
  11. 文本信息处理中汉语句法分析方法研究,TP317.2
  12. 数据流多重持续查询优化技术研究及其在入侵检测中的应用,TP317.2 TP393.08
  13. 基于.NET的办公自动化系统,TP317.2 TP317.1 TP315
  14. 服务资源不确定性问题及其引发的异常处理方法研究,TP317.2
  15. 基于文本分类与用户兴趣的个性化搜索与推荐的研究与实现,TP317.2 TP391.1
  16. 面向大规模信息检索的中文分词技术研究,TP317.2 TP391.3
  17. 基于文本的中文本体知识获取的研究,TP317.2
  18. 一个概念聚合和文档资源分类的计算模型,TP317.2 TP391.12
  19. 基于数据挖掘的股票价格预测研究,TP311.132.2 F201 F830.91
  20. 基于位置的服务系统——移动个人导航系统的研究与设计,TN929.5 TP311.13
  21. 基于本体的教学知识库研究,TP311.13
  22. VoIP移动终端中实时数据安全策略研究与实现,TN915.08 TN929.5
  23. 基于计算网格的任务调度算法研究,TP301.6
  24. 基于知识本体的多Agent协商模型研究,TP311.13 TP18
  25. 基于N—Tiers C/S模型的住房公积金系统的设计与实现,F299.233 TP317
  26. 基于优化状态转换信任度的增强型学习算法及其在机器人控制中的应用,TP181 TP242
  27. 基于RBF神经网络的人形目标识别,TP391.41 TP183

所属分类

工业技术 - 自动化技术、计算机技术 - 计算技术、计算机技术 - 计算机的应用 - 信息处理(信息加工)
工业技术 - 自动化技术、计算机技术 - 计算技术、计算机技术 - 计算机软件 - 程序包(应用软件)