毕业论文出炉记录(纯纯的菜鸟文)
来源:互联网 发布:c语言点滴 epub 编辑:程序博客网 时间:2024/05/01 08:40
补录我的硕士论文记录
2015年1月,我拿到了毕业论文的题目。《检测购物网站如亚马逊上的虚假评论》
我的专业是“BIG DATA AND TEXT ANALYSITICS”
首先我得导师给了我一个他已经收集好的,做好标记的语料库。他标记了每条评论是否为虚假评论。
我要做的第一件事,就是选择数据挖掘的工具,我毫不犹豫的选择了WEKA,因为这个我熟悉。
接下来,我需要把导师提供的语料库(XML格式)转换成WEKA可以出苦力的文本格式,于是我选择了PYTHON作为解析XML的工具。
于是我首先了解什么是XML。
XML是可扩展标记语言,目的是用来传输数据和存储数据的。
它可以由多个部分组成,每部分可以被标识。所以,当想要解析XML文件中的文本时,可以用PYTHON中的方法进行解析。
PYTHON中常用的解析方法有三种:SAX、DOM和ElementTree,都是利用寻找标识模块并解析数据的。
解析后的每个XML文件存储在相应的文本文件中。
WEKA 可以直接读取文本文件。
0 0
- 毕业论文出炉记录(纯纯的菜鸟文)
- 纯纯的青春
- 纯纯纯小白的adb入门讲解-(如何安装adb)
- 纯纯的课本C++练习
- 毕业论文的点点滴滴(一)
- 毕业论文问题记录
- 纯纯纯小白的adb入门 讲解(如何查看设备是否连接)
- 菜鸟的记录
- Android菜鸟的学习记录。
- 菜鸟的MATLAB学习记录
- 积少成多,记录java菜鸟的成长之路(一)
- 属性选择器配合location使用(菜鸟的记录)
- 某同学的毕业论文
- 我的毕业论文
- 我的毕业论文
- 毕业论文的问题
- 我的毕业论文
- 偶的毕业论文
- struts的相关配置
- 多线程并发库(一)
- IIS7 / IIS7.5 URL 重写 HTTP 重定向到 HTTPS
- 初始化
- 31.Next Permutation
- 毕业论文出炉记录(纯纯的菜鸟文)
- 针对魔兽争霸3“萝莉”病毒的扫描工具开发
- linux 环境变量设置(临时 + 永久)
- recycleView基本知识
- Android 属性动画探究(二)——TypeEvaluator解析与自定义
- 润乾报表使用Frame实现初始参数 报表为空效果
- MYSQL 百万条记录全文检索中文解决方案
- Hadoop Yarn的工作流程
- 编写开源库并发布到JitPack.io