几种简单的文本数据预处理方法

来源：互联网发布：jsp中注释java代码编辑：程序博客网时间：2024/06/06 02:17

下载数据：
http://www.gutenberg.org/cache/epub/5200/pg5200.txt

将开头和结尾的一些信息去掉，使得开头如下：

One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.

结尾如下：

And, as if in confirmation of their new dreams and good intentions, as soon as they reached their destination Grete was the first to get up and stretch out her young body.

保存为：metamorphosis_clean.txt

加载数据：

filename = 'metamorphosis_clean.txt'file = open(filename, 'rt')text = file.read()file.close()

1. 用空格分隔：

words = text.split()print(words[:100])# ['One', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', ...]

2. 用 re 分隔单词：
和上一种方法的区别是，’armour-like’ 被识别成两个词 ‘armour’, ‘like’，’”What\’s’ 变成了 ‘What’, ‘s’

import rewords = re.split(r'\W+', text)print(words[:100])

3. 用空格分隔并去掉标点：
string 里的 string.punctuation 可以知道都有哪些算是标点符号，
maketrans() 可以建立一个空的映射表，其中 string.punctuation 是要被去掉的列表，
translate() 可以将一个字符串集映射到另一个集，
也就是 ‘armour-like’ 被识别成 ‘armourlike’，’”What\’s’ 被识别成 ‘Whats’

words = text.split()import stringtable = str.maketrans('', '', string.punctuation)stripped = [w.translate(table) for w in words]print(stripped[:100])

4. 都变成小写：
当然大写可以用 word.upper()。

words = [word.lower() for word in words]print(words[:100])

安装 NLTK：
nltk.download() 后弹出对话框，选择 all，点击 download

import nltknltk.download()

5. 分成句子：
用到 sent_tokenize()

from nltk import sent_tokenizesentences = sent_tokenize(text)print(sentences[0])

6. 分成单词：
用到 word_tokenize，
这次 ‘armour-like’ 还是 ‘armour-like’，’”What\’s’ 就是 ‘What’, “‘s”,

from nltk.tokenize import word_tokenizetokens = word_tokenize(text)print(tokens[:100])

7. 过滤标点：
只保留 alphabetic，其他的滤掉，
这样的话 “armour-like” 和 “‘s” 也被滤掉了。

from nltk.tokenize import word_tokenizetokens = word_tokenize(text)words = [word for word in tokens if word.isalpha()]print(tokens[:100])

8. 过滤掉没有深刻含义的 stop words：
在 stopwords.words(‘english’) 可以查看这样的词表。

from nltk.corpus import stopwordsstop_words = set(stopwords.words('english'))words = [w for w in words if not w in stop_words]print(words[:100])

9. 转化成词根：
运行 porter.stem(word) 之后，单词会变成相应的词根形式，例如 “fishing,” “fished,” “fisher” 会变成 “fish”

from nltk.tokenize import word_tokenizetokens = word_tokenize(text)from nltk.stem.porter import PorterStemmerporter = PorterStemmer()stemmed = [porter.stem(word) for word in tokens]print(stemmed[:100])

学习资源：
http://blog.csdn.net/lanxu_yy/article/details/29002543
https://machinelearningmastery.com/clean-text-machine-learning-python/

推荐阅读原文
也许可以找到你想要的：
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

阅读全文

0 0