spark下的分词--spark+jieba

来源：互联网发布：ff14龙男捏脸数据身高编辑：程序博客网时间：2024/06/01 09:52

在网上找到的相关的spark程序都是spark自带的实例，或者没有python相关的代码，根据自己业务上的使用与调研，现在把涉及的spark相关的程序给介绍一下：

首先1.spark下的切词。对于我这个spark小白来说，切词对我都是挺难的，因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码：

split_jieba2.py

import jieba

import sys

import os

import re

defsplit_jieba(line):

train = []

jieba.load_userdict('dict.txt')

seg_list = jieba.cut(line,cut_all= False)

ls = ""

for w in seg_list:

ls += w +''

return ls

spark_split_jieba.py

from pysparkimport SparkConf,SparkContext

import split_jieba2

APP_NAME = "my spark application"

deftokenize(text):

ls = split_jieba2.split_jieba(text)

return ls

defmain(sc):

text =sc.textFile("file:///home/3.txt")

words=text.map(tokenize)

words.saveAsTextFile("wc5")//切好的词可以放到磁盘上

print 'succeed'

if __name__ =="__main__":

conf = SparkConf().setAppName(APP_NAME)

conf = conf.setMaster("local")

sc = SparkContext(conf=conf)

main(sc)

0 0