自然语言处理(nlp)的流程图

来源:互联网 发布:淘宝店铺信誉怎么提升 编辑:程序博客网 时间:2024/05/02 02:11

1. 读取原始数据

html = urlopen(url).read()


2. 数据清洗

raw = nltk.clean_html(html)


3. 数据切片

raw = raw[111:2222222]


4. 数据分词

tokens = nltk.wordpunct_tokenize(raw)

或者

tokens = nltk.word_tokenize(raw)


5. 分词切片

tokens = tokens[20:222222]


6. 文本转换 (或者不需要)

text = nltk.Text(tokens)


7. 词汇获取

words = [w.lower() for w in text]

vocab = sorted(set(words))

0 0