spark下的分词--spark+jieba

来源:互联网 发布:ff14龙男捏脸数据身高 编辑:程序博客网 时间:2024/06/01 09:52

在网上找到的相关的spark程序都是spark自带的实例,或者没有python相关的代码,根据自己业务上的使用与调研,现在把涉及的spark相关的程序给介绍一下:

首先1.spark下的切词。对于我这个spark小白来说,切词对我都是挺难的,因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码:

split_jieba2.py

import jieba

import sys

import os

import re

defsplit_jieba(line):

        train = []

        jieba.load_userdict('dict.txt')

        seg_list = jieba.cut(line,cut_all= False)

        ls = ""

for w in seg_list:

ls += w +''

        return ls

spark_split_jieba.py

from pysparkimport SparkConf,SparkContext

import split_jieba2

APP_NAME = "my spark application"

deftokenize(text):

        ls = split_jieba2.split_jieba(text)

return ls

defmain(sc):

        text =sc.textFile("file:///home/3.txt")

        words=text.map(tokenize)

        words.saveAsTextFile("wc5")//切好的词可以放到磁盘上

        print 'succeed'

if __name__ =="__main__":

        conf = SparkConf().setAppName(APP_NAME)

        conf = conf.setMaster("local")

        sc = SparkContext(conf=conf)

        main(sc)



0 0