requests模块实践:爬取淘宝商品信息和价格
来源:互联网 发布:java遍历jsonobject 编辑:程序博客网 时间:2024/04/30 09:28
代码:
import reimport requests#获取当前url的html文档def htmlget(url): try: kv={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'} r=requests.get(url,headers=kv) r.raise_for_status r.encoding=r.apparent_encoding return r.text except: return ''#对html文档进行解析找到信息存到数组中def htmlparse(ilt,html): try: plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) tlt = re.findall(r'\"raw_title\"\:\".*?\"',html) for i in range(len(plt)): price = eval(plt[i].split(':')[1]) title = eval(tlt[i].split(':')[1]) ilt.append([price , title]) except: print("")#把提取到的数组中的数据写到txt文件中去def htmlreadin(ilt): file=open("E:/python/taobao.txt","r+",encoding='utf8') file.write("{:^10}{:^10}{:^30}".format("number","price","name")+'\n') print("hhh") for i in range(len(ilt)): file.write("{:^10}{:^10}{:^30}".format(i, ilt[i][0], ilt[i][1])+'\n')def main(): goods="篮球" page=2 url='https://s.taobao.com/search?q='+goods ilt=[] for ii in range(page): try: html=htmlget(url+'&s='+str(ii*44))#切换商品下一页面,观察得到每两个页面隔44 htmlparse(ilt,html) except: continue htmlreadin(ilt)main()
效果:
阅读全文
0 0
- requests模块实践:爬取淘宝商品信息和价格
- 使用requests和re库对淘宝商品信息进行定向爬取
- selenium和pyquery爬取淘宝美食商品信息
- python +selenium 爬取淘宝网商品信息
- 使用python + selenium爬取淘宝商品信息
- 比价网站的基础-爬取淘宝的商品信息
- 爬虫实践---Selenium-抓取淘宝搜索商品信息
- Python 淘宝商品价格爬取(requests库+正则表达式)
- 使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息
- 爬取淘宝商品的价格(移动端网页)
- Scrapy爬取亚马逊商品信息
- [实战演练]python3使用requests模块爬取页面内容
- [实战演练]python3使用requests模块爬取页面内容
- urllib模块和requests模块
- requests爬取小说
- 【开源】scrapy爬取亚马逊商品信息
- Python实战1_2:爬取商品信息
- 如何抓取淘宝上的商品信息和详情页信息
- super关键字
- Java接口
- iOS集成TensorFlow Lite配置教程
- 舰娘
- 【1701H1】【穆晨】【171215】连续第六十六天总结
- requests模块实践:爬取淘宝商品信息和价格
- NIO
- JavaSwing学习总结
- pintos (1) -- Alarm Clock
- Golang 使用Mongodb之pipe
- Android Studio引用项目和引用jar包
- 事物的四个特性和四个隔离级别
- Android JNI之System.loadLibrary()流程
- 前辈指导的DWORD反转倒序