python2.7爬取京东商品评论
来源:互联网 发布:淘宝二手3ds 编辑:程序博客网 时间:2024/06/04 19:36
大神请绕路,新手先别急着上车
在这个url: http://club.jd.com/review/%s-3-%d-0.html
我们先来了解一下京东商品评论的地址,他们的客户评论看似是在商品页(item.jd.com),但实际上是在club.jd.com/review/这个url里面,要找到这个只要打开浏览器的console看看页面元素的href的连接看仔细点就行。
club.jd.com/review/在这一页里面留心点看看comment-content,你就会有找到你想要的
#encoding:utf-8import urllibfrom snownlp import SnowNLPr = Falsel = ''n = 0sno = raw_input('please input goods number:\n')f = open('jdpl_data3.txt','w')try: for i in range (1,64) : p = urllib.urlopen('http://club.jd.com/review/%s-3-%d-0.html'%(sno,i)) for j in p.read(): if j == '\n': #print l if r : if '</dd>' in l: l = l.replace('\t','') l = l.replace(' ','') l = l.replace('<dd>','') l = l.replace('</dd>','') n = n+1 print l f.write(str(n)) f.write(' ') f.write(l) f.write(' ') s = SnowNLP(l.decode('gbk')).sentiments f.write(str(s)) f.write('\n') r = False if 'comment-content' in l : r = True l = '' else: l = l + jexcept Exception,e: f.close()f.close()print 'All Finish!'里面的snownlp模块是用来进行情感分析的,将评论解码成unicode格式,然后调入snownlp模块的sentisments就可以得到一个感情值,0.5为中性,越接近1越是喜欢,越接近0越是厌恶
在这个url: http://club.jd.com/review/%s-3-%d-0.html
%s是我们一开始输入的商品代号,%d是评论的第几页,京东的客户评论一页有20条,通过for循环,我可以把所有的评论页都遍历一遍
每次抓取网页的主要思路是先找到标签里的comment-content,然后将r设置为true,之后等到爬取的html行中出现<dd>,就提取<dd></dd>标签里的评论,然后将r设置为false继续读取下一行html内容直到读取完网页内容,或者网页不存在为止
程序抓取的评论会保存在同目录下的 jdpl_data3.txt 文件里面
最后实现的效果请看:http://pan.baidu.com/s/1c2kXPSW 或者下载资源包http://download.csdn.net/detail/baidu_28795717/9830483
1 0
- python2.7爬取京东商品评论
- 爬取京东商品评论
- scrapy框架爬取京东商城商品的评论
- 商品评论表表结构设计
- Scrapy学习笔记(4)分布式爬取京东商品详情,评论和评论总结
- 商品评论的Tag模式
- 用户商品评论自动分类
- 淘宝商品评论爬取
- python json 爬京东商品评论
- scrapy爬取京东商城某一类商品的信息和评论(一)
- scrapy爬取京东商城某一类商品的信息和评论(二)
- 让zen cart商品评论显示在商品详情页面
- python爬虫(7)——获取京东商品评论信息
- OpenCart之商品评论(Reviews)教程
- 【开源】scrapy爬取亚马逊商品评论
- 商品评论中的实体情感分析
- jquery 商品评论 星星点击 事件
- 京东商品及评论 数据采集
- 不一样的手机扫描车牌识别
- 使用adb shell 进入手机修改文件的权限
- Docker网络方案初探
- POJ2406Power Strings
- 二叉树的前序遍历
- python2.7爬取京东商品评论
- usaco5.1.1 Fencing the Cows
- ArcSoft's Office Rearrangement
- 利用predis操作redis方法大全
- F
- 约瑟夫问题
- hdu1018
- UCOSIII编写无人机飞控程序——第一篇
- ndarray对象