csdn 笔记
来源:互联网 发布:杭州市行知小学校徽 编辑:程序博客网 时间:2024/05/03 06:24
http://blog.csdn.net/yt7589/article/details/6658687
网页抓取可以使用Apache的HttpClient,网页分析可以采用Jsoup,但是出于程序员的本能,发现只需要十几行代码就可以实现的网页抓取功能,用Apache HttpClient光下载所需软件就需要几M,索性就自己写吧,从头开始的成就感可比采用开源软件强烈多了。
在Eclipse下建立一个新工程,创建网络爬虫接口WebCrawler,然后建立专门针对京东的网络爬虫类JdCrawler,实现接口方法getContent,输入京东商城的网址http://www.360buy.com/,首先发现京东的首页好大,几经调整Buffer的大小,终于完整下载下来京东商城首页,第一眼就发现,京东商城利用HTML中的meta属性,增加了关键词的密度,算是一种搜索引擎优化(SEO)的实用小技巧吧。
基于内容的推荐引擎:中文分词、术语向量、向量距离、自动聚类算法
做社会化电子商子商务方向,初期就是做京东、卓越等3C电子商城的聚合网站,提供比价信息,然后会加上全文检索、数据挖掘、推荐引擎等方面内容。
第一种是利用大型门户网站注册邮箱进行病毒式营销的,利用用户通信录发送邀请邮件,不过现在用户已经知道这是系统自动产生的,效果应该大打折扣了;第二种是与其他网站进行流量置换的,不过这个需要你有其他流量大的网站,才能把流量导过来;第三种是买肉鸡电脑冲流量,现在专门有人做木马程序,将这些程序通过下载软件而安装到客户机器上,他们就可以命令这些中了木马的电脑做任何事情,比如他操纵这些木马机器来访问你的网站,你的网站在Alexa的排名肯定上去。
- csdn 笔记
- csdn笔记
- CSDN测试题笔记
- 看CSDN笔记
- CSDN CODE 使用笔记
- csdn code使用笔记
- csdn技术笔记重新激活.
- CSDN学习笔记(1)
- CSDN的第一篇笔记
- 印象笔记搬迁CSDN博客
- 【记事】本地笔记移至CSDN
- 有道笔记到CSDN博客
- JSP学习笔记 - CSDN博客
- CSDN 视频--Blog 学习之道(笔记)
- 准备使用 ScribeFire + CSDN 记笔记
- 在CSDN的第一篇笔记
- 加入csdn社区的第一篇笔记
- 从此开通CSDN博客,记录技术笔记
- 第九章中位数和顺序统计学之“寻找第2小元素”(练习9.1-1待改进)
- Unity3D里面的Glow Effect的使用技巧
- “makefile:425: *** 遗漏分隔符 。 停止。”问题解决
- flex blazeds Detected duplicate HTTP-based FlexSessions错误
- android wifi 移植记录
- csdn 笔记
- [MySQL]MyISAM 和 InnoDB 讲解
- 一百年后,人类怎样编程
- 打出日志
- 关于Canvas的一些经验
- Oracle 11g:Scalar Subquery expression Limitation
- 开源资产管理软件—OCS Inventory NG+ GLPI 系统安装配置UTF-8版 支持中文
- ethtool 命令详解
- 展望2012