信息采集关键算法
来源:互联网 发布:cyw主力控盘度指标源码 编辑:程序博客网 时间:2024/04/27 20:29
//查找单个链结地址
BOOL FindHref(LPCTSTR lpszFind,LPCTSTR lpszString,CString& lpszResult,UINT nLen)
//从整个网页文本中查找所有链结地址
BOOL GetHref(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)
//获取整个网页中的Email地址
BOOL GetEmail(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)
//获取网页中的正文
BOOL GetHTMLText(LPCSTR szBuffer, CStringList& list)
//将网页中的正文拼成字符串返回
CString GetHTMLText(CString sStr)
//判断一行文本是否为空行
bool isBlankLine(char *line)
//过滤掉正文中的空行
CString FilterBlankLine(CString sStr)
//由于网页中链结往往有重复的,因此要用函数去除重复链结,当然也可以在找链结的时候就抛弃重复的
void FilterList(CStringList &list)
//根据前后关键字获取信息文本,例如从文本中获取“标题”,“联系人”关键字之间的文本
CString FilterByMark(CString sStr,CString mark1,CString mark2)
//按关键字过滤掉多余空格,例如按关键字“邮件”可把文本中“邮 件”中的多余空格全部剔除,便于
进行下一步采集信息
CString FilterSpaceByMark(CString sStr,CString mark)
文章来自: Gavin's blog
- 信息采集关键算法
- 信息采集
- 信息采集
- 信息采集
- 信息采集
- ASP信息采集入门教程
- ASP信息采集入门教程
- php信息采集程序
- 网页信息采集实现
- 采集 淘宝产品描述信息
- 页面信息采集
- 信息采集系统
- SCCM2007 sql采集信息
- C# 信息采集器
- Android手机信息采集
- whois信息采集总结
- 网页信息采集工具
- 搜索引擎信息采集
- Java bytecode
- Javassist: Java Bytecode Engineering Made Simple
- Java programming dynamics, Part 4: Class transformation with Javassist
- SQL server 2000 日志缓冲池如何管理?
- 为MFC 和 ATL控件创建签署的CAB文件
- 信息采集关键算法
- C#的事件与托管(代码理解)
- Jdbc-Odbc桥连接Access数据库出现问题
- Java programming dynamics, Part 6: Aspect-oriented changes with Javassist
- Jbuilder配置mssqlserver2000 JDBC过程
- 在VMware中启用Linux桌面系统X-Window
- Java中浮点数的处理
- 転勤
- 匆匆