spark下的分词--spark+jieba
来源:互联网 发布:ff14龙男捏脸数据身高 编辑:程序博客网 时间:2024/06/01 09:52
在网上找到的相关的spark程序都是spark自带的实例,或者没有python相关的代码,根据自己业务上的使用与调研,现在把涉及的spark相关的程序给介绍一下:
首先1.spark下的切词。对于我这个spark小白来说,切词对我都是挺难的,因为没找到相关的实例。其实spark下是可以直接调用一下结巴jieba切词的。只不过格式要换一下。现在上一下代码:
split_jieba2.py
import jieba
import sys
import os
import re
defsplit_jieba(line):
train = []
jieba.load_userdict('dict.txt')
seg_list = jieba.cut(line,cut_all= False)
ls = ""
for w in seg_list:
ls += w +''
return ls
spark_split_jieba.py
from pysparkimport SparkConf,SparkContext
import split_jieba2
APP_NAME = "my spark application"
deftokenize(text):
ls = split_jieba2.split_jieba(text)
return ls
defmain(sc):
text =sc.textFile("file:///home/3.txt")
words=text.map(tokenize)
words.saveAsTextFile("wc5")//切好的词可以放到磁盘上
print 'succeed'
if __name__ =="__main__":
conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster("local")
sc = SparkContext(conf=conf)
main(sc)
- spark下的分词--spark+jieba
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 搜索引擎–Python下的分词插件 jieba 结巴分词
- jieba分词的使用
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- python下结巴分词(jieba)学习笔记
- Windows下elasticsearch安装jieba分词插件
- 第九周-运行实践
- SYN Cookie的原理和实现
- DSP平台实现图像识别算法总体来说不如嵌入式?
- qt4中dbus使用
- Android Q&A | No orientation specified, and the default is horizontal,
- spark下的分词--spark+jieba
- jQuery选择器案例
- 跳台阶问题
- JavaScript学习总结(七)——JavaScript函数(function)
- c++第五次实验
- 关于百度推送证书问题
- linux:php配置文件php.ini详解
- (OK) dnf - Fedora 23 - kernel - 安装内核 - kernel-4.4.3-300.fc23
- 用Eclipse建spring mvc项目(图解)