删除文件中重复的词语
来源:互联网 发布:好的手机管理软件知乎 编辑:程序博客网 时间:2024/04/26 15:06
#!/usr/bin/env python# -*- coding: utf-8 -*-#@function delete depublicattions:#1.delete depublicate lines in textimport sysfrom optparse import OptionParserdef readfile(filename): try: f = open(filename) except Exception : print ("No such file") exit(0) text = f.readlines() f.close() for i in range(0,len(text)-1): text[i] = text[i][:-1] return textdef unique(arr): arr1 = list(set(arr)) arr1.sort(key = arr.index) return arr1def main(): parser = OptionParser() parser.add_option("-f", "--file", dest="filename",help="write report to FILE", metavar="FILE") #文件路径 #edit configurations--script parameters -f --file C:\Users\llfang1\Desktop\gongsi资料\词条5.txt (options, args) = parser.parse_args() filename = options.filename text = readfile(filename) text_dealed = unique(text) for i in range(0,len(text_dealed)-1): text_dealed[i] = text_dealed[i] +'\n' f = open("output.txt","w") f.writelines(text_dealed) f.close() deduplication_num = len(text) - len(text_dealed) print ("success") print ("The num of data from the source file :" + str(len(text))) print ("The num of data from the preprocessed file: :" + str(len(text_dealed))) print ("The num of data removed :" + str(deduplication_num))if __name__ == '__main__': main()
阅读全文
0 0
- 删除文件中重复的词语
- 删除文件中重复的行
- 删除文件中重复的行
- 删除文件中重复的行
- Shell小技巧:删除文件中重复的行
- 删除重复的脚本文件
- 删除重复文件的程序
- python删除xml文件中重复词条
- 如何从一个文件中删除另一个文件的重复项
- 删除重复文件的脚本代码
- 电脑中重复文件怎么删除?教你查找并删除重复文件
- 超简单的删除文件中重复行的方法及详解
- 删除重复文件sql
- java 删除重复文件
- shell 删除重复文件
- 删除重复文件
- 查找、删除表中重复的记录
- 如何查找、删除表中重复的记录
- LinuxMint 下安装 IntelliJ IDEA
- Leetcode Search a 2D Matrix
- C#隐藏手机号中间四位为*
- 《深入探索C++对象模型》第一章:关于对象
- 论文阅读笔记-CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
- 删除文件中重复的词语
- 242. Valid Anagram
- C++学习(51)
- Emacs设置theme、设置字体、显示行号
- layer-list的用法
- Quartz分布式调试任务(一)
- 一次完整http请求的7个过程
- VS无法找到afxres.h
- 微信小程序——监听websocket数据