【python】使用中科院NLPIR分词工具进行mysql数据分词
来源:互联网 发布:直播软件xsplit 编辑:程序博客网 时间:2024/04/30 08:53
本文主要是使用中科院的分词工具对于数据库中的数据文本进行分词
在电脑上安装python,并导入python与数据库的连接插件MySQLdb 以及中科院的分词工具NLPIR
import pynlpirimport codecsimport math,MySQLdbfrom search import *pynlpir.open()#连接数据库conn=MySQLdb.connect(host="127.0.0.1",user="root",passwd="123456",db="",charset="utf8") cursor = conn.cursor() n = cursor.execute("select * from test where id = 8 ")
停用词 st = codecs.open('E:\\testword\\stopwords.txt', 'rb',encoding='gbk')
读取数据库中的数据
for row in cursor.fetchall(): s=row[3] singletext_result = [] #item中第一列存储的是关键词,第二列是词性 print row[0] for item in pynlpir.segment(s): #print item[0] singletext_result.append(item[0]) #print singletext_result #读取停用词 for line in st: line = line.strip() stopwords.append(line) print stopwords
过滤停用词
#过滤停用词 localtion = 0 for word in singletext_result: localtion = localtion + 1 if word not in stopwords: if word >= u'\u4e00' and word <= u'\u9fa5':#判断是否是汉字 delstopwords_singletxt.append(word)
构建词表
#构建词表 for item in delstopwords_singletxt: if(search(item)): if(savecount(item)): print 'success to add count' else: if(save(item)): print 'success to add keyword'
0 0
- 【python】使用中科院NLPIR分词工具进行mysql数据分词
- 使用NLPIR汉语分词工具进行中文分词(java语言)
- 中科院分词工具NLPIR初始化失败
- 中科院分词(NLPIR) JAVA
- 使用Java调用中科院分词NLPIR/ICTCLAS
- 使用Java调用中科院分词NLPIR/ICTCLAS
- 使用NLPIR汉语分词系统进行分词
- nlpir分词工具使用记录
- 三大分词工具:standford CoreNLP/中科院NLPIR/哈工大LTP的简单使用
- Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握
- Python调用NLPIR/ICTCLAS进行文本分词
- 中科院分词系统(NLPIR)JAVA简易教程
- NLPIR中科院分词系统初始化失败
- 中科院NLPIR中文分词java版
- 中科院分词系统(NLPIR)JAVA简易教程
- python调用中科院分词器进行中文分词
- NLPIR(ICTCLAS 2013)分词工具Python封装
- python中文分词,使用结巴分词对python进行分词
- ASP.NET MVC+EasyUI+三层工厂模式 实现权限管理系统
- Java多线程系列(3)--解决共享资源竞争synchronized
- 图的基本存储的基本方式三
- Jquery的Table
- 常见面试点
- 【python】使用中科院NLPIR分词工具进行mysql数据分词
- 使用Date和SimpleDateFormat类表示时间
- python小知识
- windows 7 下如何搭建爬虫框架scrapy
- 贪心算法专题(1)--HDU1009
- spring基础(2)-注入方式和配置集合属性
- Java中进程与线程的区别
- 读书笔记 effective c++ Item 8 不要让异常(exceptions)离开析构函数
- 性能测试5-性能测试环境搭建