如何利用python中的langid,对文本语种进行分类
来源:互联网 发布:java闰年判断switch 编辑:程序博客网 时间:2024/05/23 01:17
1、首先下载langid
链接:Github主页:https://github.com/saffsd/langid.py
F:\githubDownLoad\langid.py-master(下载在我的本地文件夹)
2、在该文件夹下面新建一个python文件 languageID.py
import langid #引入langid模块
import os
fout = open("languageID.txt",'w') #打开一个txt文本存储结果
FileList=[]
Findpath = "D:/歌词/" #所要处理的文件夹路径
FileNames=os.listdir(Findpath)
for fn in FileNames:
fullfilename=os.path.join(Findpath,fn) #获得文件夹路径下面的文件名
#FileList.append(fullfilename)
fin = open(fullfilename,'r') #打开该文件
ch = 0
en = 0
ko = 0
ja = 0
x=0
for eachLine in fin:
line = eachLine.strip().decode('utf-8','ignore') #每行读取内容
lineTuple = langid.classify(line) #判断每行内容属于什么语种
if lineTuple[0]=="zh": #langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh中文,en英文,mr日文
ch = ch+1
elif lineTuple[0]=="en":
en = en +1
elif lineTuple[0]=="ko":
ko = ko+1
elif lineTuple[0]=="mr":
ja = ja +1
else:
x = x+1
m=max(ch,en,ko,ja,x)
fout.write(fullfilename + '\t')
if m==ch:
outstr = "ch"
fout.write('ch'+'\n')
elif m==en:
outstr = "en"
fout.write('en'+'\n')
elif m==ko:
outstr = "ko"
fout.write('ko'+'\n')
elif m==ja:
outstr = "ja"
fout.write('ja'+'\n')
else :
outstr = "x"
fout.write('x'+'\n')
fin.close()
fout.close()
- 如何利用python中的langid,对文本语种进行分类
- 【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别
- python中利用KNN实现对iris进行分类
- 利用python对一段英文文本进行分词,分句
- 使用python进行文本分类
- 使用Python进行文本分类
- python进行文本分类,基于word2vec,sklearn-svm对微博性别分类
- 如何利用libsvm进行分类
- 如何利用lib进行分类
- 如何利用Python对中文进行分词处理
- 利用python,基于SVM实现文本分类
- 利用DecisionTree对titanic数据进行分类
- 利用HTMLDocument2对HTML文本进行解析
- 利用python对中文文本数据进行LDA训练、计算概率距离
- 【译文】如何利用机器学习和分布式计算来对用户事件进行分类
- 利用贝叶斯分类器对fetch_20newsgroups数据集进行分类
- 如何利用关联规则进行分类
- Python实现决策树对西瓜进行分类
- __packed引起的问题
- RBSP流对SODB流的包含规则
- 安装openresty的脚本
- 判断当前网络状态,包含2,3,4G网络状态
- 哈希函数的常用构造方法和处理冲突方法
- 如何利用python中的langid,对文本语种进行分类
- XTU 1241 Permutation
- Map集合的取值方式
- SQL Server优化50法
- python: android批量多渠道打包
- stm32 pc13~pc15 tamper-rtc OSC32-IN/OSC32-OUT 配置成IO口
- 6.3网络协议
- centos7配置VSFTPD
- 12个javascript技巧