csdn 笔记

来源：互联网发布：杭州市行知小学校徽编辑：程序博客网时间：2024/05/03 06:24

http://blog.csdn.net/yt7589/article/details/6658687

网页抓取可以使用Apache的HttpClient，网页分析可以采用Jsoup，但是出于程序员的本能，发现只需要十几行代码就可以实现的网页抓取功能，用Apache HttpClient光下载所需软件就需要几M，索性就自己写吧，从头开始的成就感可比采用开源软件强烈多了。

在Eclipse下建立一个新工程，创建网络爬虫接口WebCrawler，然后建立专门针对京东的网络爬虫类JdCrawler，实现接口方法getContent，输入京东商城的网址http://www.360buy.com/，首先发现京东的首页好大，几经调整Buffer的大小，终于完整下载下来京东商城首页，第一眼就发现，京东商城利用HTML中的meta属性，增加了关键词的密度，算是一种搜索引擎优化（SEO）的实用小技巧吧。

基于内容的推荐引擎：中文分词、术语向量、向量距离、自动聚类算法

做社会化电子商子商务方向，初期就是做京东、卓越等3C电子商城的聚合网站，提供比价信息，然后会加上全文检索、数据挖掘、推荐引擎等方面内容。

第一种是利用大型门户网站注册邮箱进行病毒式营销的，利用用户通信录发送邀请邮件，不过现在用户已经知道这是系统自动产生的，效果应该大打折扣了；第二种是与其他网站进行流量置换的，不过这个需要你有其他流量大的网站，才能把流量导过来；第三种是买肉鸡电脑冲流量，现在专门有人做木马程序，将这些程序通过下载软件而安装到客户机器上，他们就可以命令这些中了木马的电脑做任何事情，比如他操纵这些木马机器来访问你的网站，你的网站在Alexa的排名肯定上去。