关于相似地址识别的Python代码

来源:互联网 发布:多个表格数据求和 编辑:程序博客网 时间:2024/06/01 16:11

工作需要,利用中国省、市、乡等基本行政规划以及基本的地址分词字符如街、道之类的,以正则表达式分词的方式做了一个相似地址的判断程序。该程序首先利用正则表达式对地址进行分词,将部分常见的无法用于区分的字段删除,如街、道、号等,将分词后的结果放到gensim进行文本相似度判断。

大致的判断结果如下:

原始地址

相似地址列表

上海市奉贤区南桥镇光明工业园区

'上海市奉贤区南桥镇工业区', '上海市奉贤工业园区', '上海市奉贤区南桥镇', '上海市奉贤区南桥镇', '上海奉贤区南桥镇', '上海市奉贤区光明工业园区', '上海奉贤光明工业园区'

浦东新区龙阳路2345号

'浦东新区龙阳路2345号', '浦东新区龙阳路2345号', '上海浦东新区龙阳路2345号)', '上海市浦东新区龙阳路2345号', '上海市浦东新区龙阳路2345号', '上海浦东新区龙阳路2345号', '中国上海市浦东新区龙阳路2345号', '上海龙阳路2345号', '上海市浦东新区龙阳路', '上海市浦东新区工业园区', '上海市闵行区浦东'

华徐公路685

'上海市青浦区华徐公路685号', '上海市青浦区华徐公路685号E通世界商务园南区', '上海市华徐公路888号', '上海华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路888号', '上海市青浦区华徐公路228号', '上海华徐公路888号1号楼'


主要用于识别是否有多人用同样的地址进行申请以欺诈。


下载地址如下:



原创粉丝点击