几种简单的文本数据预处理方法
来源:互联网 发布:jsp中注释java代码 编辑:程序博客网 时间:2024/06/06 02:17
下载数据:
http://www.gutenberg.org/cache/epub/5200/pg5200.txt
将开头和结尾的一些信息去掉,使得开头如下:
One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.
结尾如下:
And, as if in confirmation of their new dreams and good intentions, as soon as they reached their destination Grete was the first to get up and stretch out her young body.
保存为:metamorphosis_clean.txt
加载数据:
filename = 'metamorphosis_clean.txt'file = open(filename, 'rt')text = file.read()file.close()
1. 用空格分隔:
words = text.split()print(words[:100])# ['One', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', ...]
2. 用 re 分隔单词:
和上一种方法的区别是,’armour-like’ 被识别成两个词 ‘armour’, ‘like’,’”What\’s’ 变成了 ‘What’, ‘s’
import rewords = re.split(r'\W+', text)print(words[:100])
3. 用空格分隔并去掉标点:
string 里的 string.punctuation 可以知道都有哪些算是标点符号,
maketrans() 可以建立一个空的映射表,其中 string.punctuation 是要被去掉的列表,
translate() 可以将一个字符串集映射到另一个集,
也就是 ‘armour-like’ 被识别成 ‘armourlike’,’”What\’s’ 被识别成 ‘Whats’
words = text.split()import stringtable = str.maketrans('', '', string.punctuation)stripped = [w.translate(table) for w in words]print(stripped[:100])
4. 都变成小写:
当然大写可以用 word.upper()。
words = [word.lower() for word in words]print(words[:100])
安装 NLTK:
nltk.download() 后弹出对话框,选择 all,点击 download
import nltknltk.download()
5. 分成句子:
用到 sent_tokenize()
from nltk import sent_tokenizesentences = sent_tokenize(text)print(sentences[0])
6. 分成单词:
用到 word_tokenize,
这次 ‘armour-like’ 还是 ‘armour-like’,’”What\’s’ 就是 ‘What’, “‘s”,
from nltk.tokenize import word_tokenizetokens = word_tokenize(text)print(tokens[:100])
7. 过滤标点:
只保留 alphabetic,其他的滤掉,
这样的话 “armour-like” 和 “‘s” 也被滤掉了。
from nltk.tokenize import word_tokenizetokens = word_tokenize(text)words = [word for word in tokens if word.isalpha()]print(tokens[:100])
8. 过滤掉没有深刻含义的 stop words:
在 stopwords.words(‘english’) 可以查看这样的词表。
from nltk.corpus import stopwordsstop_words = set(stopwords.words('english'))words = [w for w in words if not w in stop_words]print(words[:100])
9. 转化成词根:
运行 porter.stem(word) 之后,单词会变成相应的词根形式,例如 “fishing,” “fished,” “fisher” 会变成 “fish”
from nltk.tokenize import word_tokenizetokens = word_tokenize(text)from nltk.stem.porter import PorterStemmerporter = PorterStemmer()stemmed = [porter.stem(word) for word in tokens]print(stemmed[:100])
学习资源:
http://blog.csdn.net/lanxu_yy/article/details/29002543
https://machinelearningmastery.com/clean-text-machine-learning-python/
推荐 阅读原文
也许可以找到你想要的:
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]
- 几种简单的文本数据预处理方法
- 几种常见数据预处理的效果图
- 文本分类的数据预处理流程介绍
- 文本建模常用的预处理方法
- 文本数据预处理系统软件
- 几种获取EDIT文本的方法
- 文本垂直居中的几种方法
- 数据开发常用的几种数据预处理和数据整理方法
- 数据预处理的一些方法
- 常用的数据预处理方法
- 数据挖掘之文本分类的数据预处理
- nltk文本数据预处理库
- 文本分类的数据预处理相关知识介绍
- 文本分类的数据预处理相关知识介绍
- 数据处理:数据的几种简单处理
- sklearn中常用的数据预处理方法
- python中常见的数据预处理方法
- 【Trick】数据预处理的常用方法
- MVC框架
- Building Blocks
- 优化:4数平方和之积转换为2数平方之和
- Number Complement(leetcode)
- 邮件发送工具类
- 几种简单的文本数据预处理方法
- 基于Threejs的web 3D开发入门
- 二叉树的前序,中序,后序遍历
- js框架封装(二)——选择器框架
- 你用过java.text.DecimalFormat吗?
- c语言字符串排序问题
- 【程序猿技术】Js中去除数组中重复元素的4种方法
- JAVA课程学习二:99乘法表的编写
- Regular Expression Matching:仿正则匹配字符串