程序博客网 > 农村淘宝家乡版

定向网站抓取

来源：互联网发布：农村淘宝家乡版编辑：程序博客网时间：2024/05/22 14:08

一，目标

简单来说，就是把对方的网站当中的数据复制到我们自己的数据库当中

二，会遇到的问题

1，需要登录

2，spider有被anti掉的风险

3，结构化数据的解析和提取

三，解决方案

3，可以对抓取下来的html数据进行按html的结构进行解析，有一些开源的工具

http://hi.baidu.com/jfojfo/item/734283397d682e21b3c0c54d，这篇文章对htmlParser和SGMLParser两个parser分析的很好，

然后讲下我在使用这两个的过程当中遇到的问题

0 0

农村淘宝家乡版

农村淘宝家乡版

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子烧伤的水泡破了碰到水怎么办浓硫酸沾到皮肤上应该怎么办将浓硫酸沾到皮肤上怎么办刷厕所的盐酸弄到皮肤上怎么办死刑犯被执行后发现被冤枉的怎么办觉得老公对自己不够关心体贴怎么办孕期老公不知道关心不体贴怎么办? 中国和伊朗做贸易美国制裁怎么办土地被村民霸占村长解决不了怎么办村支书霸占群众选举村长的票怎么办苹果手机自带的音乐软件删了怎么办不小心把手机系统软件删了怎么办佳能打印机打相片是打不全怎么办卖家说我寄回去的包是假的怎么办辞职后原单位没把档案给转出怎么办天下行以租代购要起诉我怎么办顺丰收件人电话地址都写错了怎么办领导问任务完不成怎么办怎么回答我和我老婆感情出现问题了怎么办手机坏了手机浏览器里照片怎么办不小心把电脑ie浏览器删了怎么办华为手机自带浏览器中病毒了怎么办手机打开浏览器提示中病毒了怎么办手机卸载了浏览器和软件商店怎么办房东在我租房期间贴房子出租怎么办额头上毛孔大还有些黑怎么办孩子学跳舞老师压的疼怎么办步步高点读机电池坏了怎么办电脑连接受限制或无连接怎么办电脑无线网受限制或无连接怎么办电脑网络受限制或无连接怎么办 3 证书报考大专证书丢了怎么办广工期末考试被老师警告了怎么办我在农村不当队长我能力不够怎么办我在农村不当队长我当代表怎么办北京本地人社保中间断了一年怎么办我想把大哥的孩子带出国要怎么办美国有亲戚想让孩子出国怎么办连接温控器的线断了怎么办植发后好多原生发都脱落了怎么办 4岁宝宝支体能力差怎么办