信息的匹配

来源:互联网 发布:php项目csdn下载 编辑:程序博客网 时间:2024/05/23 16:40

前几天提取了一个网站的信息大概有6万多条公司信息;只是信息格式并不是统一的.为了完成信息的格式化用了以下方法

一.用C#程序的方法来处理,如果一些信息是不规则的那么很难做到格式的统一而且极有可能错位造成程序的格式化异常

二.利用数据库来完成这样的处理但时间上很难预计,如果才能做到快速是一个问题

最后的方案是利用最简单的办法用数据库来解决这样的问题

增加相应的字段来标识国家与是否处理

匹配国别完成后设置已处理

6万多条数据大概处理了1小时,相信还有更快的办法如全文索引。能完成任务对这种方法还算满意

原创粉丝点击