csdn 笔记

来源:互联网 发布:杭州市行知小学校徽 编辑:程序博客网 时间:2024/05/03 06:24

http://blog.csdn.net/yt7589/article/details/6658687

        网页抓取可以使用Apache的HttpClient,网页分析可以采用Jsoup,但是出于程序员的本能,发现只需要十几行代码就可以实现的网页抓取功能,用Apache HttpClient光下载所需软件就需要几M,索性就自己写吧,从头开始的成就感可比采用开源软件强烈多了。

        在Eclipse下建立一个新工程,创建网络爬虫接口WebCrawler,然后建立专门针对京东的网络爬虫类JdCrawler,实现接口方法getContent,输入京东商城的网址http://www.360buy.com/,首先发现京东的首页好大,几经调整Buffer的大小,终于完整下载下来京东商城首页,第一眼就发现,京东商城利用HTML中的meta属性,增加了关键词的密度,算是一种搜索引擎优化(SEO)的实用小技巧吧。

         基于内容的推荐引擎:中文分词、术语向量、向量距离、自动聚类算法

         做社会化电子商子商务方向,初期就是做京东、卓越等3C电子商城的聚合网站,提供比价信息,然后会加上全文检索、数据挖掘、推荐引擎等方面内容。

         第一种是利用大型门户网站注册邮箱进行病毒式营销的,利用用户通信录发送邀请邮件,不过现在用户已经知道这是系统自动产生的,效果应该大打折扣了;第二种是与其他网站进行流量置换的,不过这个需要你有其他流量大的网站,才能把流量导过来;第三种是买肉鸡电脑冲流量,现在专门有人做木马程序,将这些程序通过下载软件而安装到客户机器上,他们就可以命令这些中了木马的电脑做任何事情,比如他操纵这些木马机器来访问你的网站,你的网站在Alexa的排名肯定上去。