日期匹配与文档排序的问题
来源:互联网 发布:复杂网络通信就业情况 编辑:程序博客网 时间:2024/05/17 08:23
在提取网页url和网页内容中的日期时,发现实验室的提取日期接口功能不是很完善,对格式要求的比较严格,但是url和网页内容中的日期格式并不规范,像2008-06-20这样的是可以提前,但是080620就不行了,而对于08125这样可能产生歧义的格式更是无能为力,经过反复权衡,决定将歧义形式的日期舍弃,增加对08、98这样不完整纪年的识别,而舍弃的歧义日期由文档的正文部分提供,如果正文也没有日期,则舍弃文档。
另一个问题是要对整个净化网页库建立索引,格式为:文档归类—>日期—>文档ID—>文档在网页库中的绝对偏移量,但是由于网页库十分巨大,而索引要求按照时间对其排序,这是一个比较麻烦的问题,无法在内存中完成操作,要想想其他方法。
- 日期匹配与文档排序的问题
- TComboBox排序匹配与乱码的问题
- elasticsearch的匹配与排序问题
- 解决用友T6最新会计期间与最新会计日期不匹配的问题
- 有关XML文档排序的问题
- bootstrap日期控件与文档编辑器的使用
- Skflow 与 tensorflow 的版本匹配 问题
- Java的日期与MySQL数据库日期的转化问题
- 一个匹配日期的正则
- mysql日期的模糊匹配
- Lucene.Net2.9.2版本的的范围匹配与排序
- JSTL与Hibernate的日期问题
- 日期与字符串之间的转化问题
- 超出int范围的整数匹配与排序方法
- '(' 与 ')'匹配问题
- java实现日期排序问题
- word文档与pdf文档的转换问题
- 图的匹配问题与最大流问题(一)
- Linux下查看主板信息
- 爱不在
- 多年前用8086汇编写的《给硬盘加启动密码》
- 精确的时间计时 QueryPerformanceCounter QueryPerformanceFrequency
- 新学期我遇见的最感动的事
- 日期匹配与文档排序的问题
- 要废除 XML 名称空间吗?
- 3 C# java c++
- Crystal Reports for eclipse3.2
- JWFD介绍
- 远程连接操作
- 利用标记库国际化JSP(1)
- XML Schema和名域(命名空间)
- 在WinCE中实现Screen Rotation