毕业论文出炉记录(纯纯的菜鸟文)

来源:互联网 发布:c语言点滴 epub 编辑:程序博客网 时间:2024/05/01 08:40

补录我的硕士论文记录

2015年1月,我拿到了毕业论文的题目。《检测购物网站如亚马逊上的虚假评论》

我的专业是“BIG DATA AND TEXT ANALYSITICS”

首先我得导师给了我一个他已经收集好的,做好标记的语料库。他标记了每条评论是否为虚假评论。

我要做的第一件事,就是选择数据挖掘的工具,我毫不犹豫的选择了WEKA,因为这个我熟悉。

接下来,我需要把导师提供的语料库(XML格式)转换成WEKA可以出苦力的文本格式,于是我选择了PYTHON作为解析XML的工具。

于是我首先了解什么是XML。

XML是可扩展标记语言,目的是用来传输数据和存储数据的。

它可以由多个部分组成,每部分可以被标识。所以,当想要解析XML文件中的文本时,可以用PYTHON中的方法进行解析。


PYTHON中常用的解析方法有三种:SAX、DOM和ElementTree,都是利用寻找标识模块并解析数据的。

解析后的每个XML文件存储在相应的文本文件中。

WEKA 可以直接读取文本文件。

0 0
原创粉丝点击