爬虫之旅(一)
来源:互联网 发布:威客网络兼职可靠吗 编辑:程序博客网 时间:2024/05/25 18:09
#!/usr/bin/python#encoding=utf-8__author__ = 'Administrator'import seleniumimport sysimport urllibimport requestsimport reif __name__ == "__main__": import os from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait chromedriver = "/home/henson/Documents/pycharm/webdriver/chromedriver" os.environ["webdriver.chrome.driver"] = chromedriver driver = webdriver.Chrome(chromedriver) driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") driver.get('http://lib.cqvip.com/zk/search.aspx') #inputElement = driver.find_element_by_xpath("//*[@id='b_Text0']")#//*[@id="b_Text0"] inputElement = driver.find_element_by_name("b_Text0") #inputElement = driver.find_element_by_onkeypress("EnteryKeyno(event)") searchWord="大气" inputElement.send_keys((searchWord)) driver.find_element_by_xpath("//*[@id='searchnormal']/form/div[3]/div/input[1]").click() currentURL=driver.current_url urlList=[] localDir = '/home/henson/Downloads/paper' r=requests.get(currentURL) #rr = urllib.request.urlopen(currentURL) data=r.text #print(data) # link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", data) # link_list=re.findall(r"a href=./download/ target=\"_blank\" ",data) #pattern = re.compile(r"<a href=.* target=\"_blank\" onclick=.*\s?.*<img src=.*\.jpg\" alt=.*title=\"\".*height=") # res_list=pattern.findall(rr) #for url in link_list: # print(url) driver.find_element_by_xpath("//*[@id='46744583']").click() # re.findall(r"(?<=href=\/ download \/ confirm.aspx\?)",data).click() link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", data) currentURL = driver.current_url r = requests.get(currentURL) data = r.text #driver.find_element_by_class_name("op").click() currentURL = driver.current_url r = requests.get(currentURL) # pattern = re.compile(r"/html/body/div/") # link_list=re.findall(pattern,data) print(data) #driver.find_element_by_xpath("/html/body/div[2]/div[2]/div/div[4]/div/div/div/div/div[1]/span[2]/a[2]]").click() driver.find_element_by_class_name("btns_a down").click() data = r.text link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", data) # link_list = re.findall('<a href="(.*)" /html/body/div[2]/div[2]/div/div[4]/div/div/div/div/div[1]/span[2]/a[2]target="_blank"', data) # print(data) # Element = driver.find_elements_by_class("btnTitle") #LINK_PATTERN = re.findall(r'<a href="(http:\/\/.*)" class="down_link">',data) #LINK_PATTERN = re.findall(r'<li><a href="(http:\/\/.*)" </a></li>',data) # LINK_PATTERN = '<a href="(/ download / confirm.aspx?.*)" target="_blank">' #url_list = list(set(re.findall(LINK_PATTERN, data))) #url_list = re.findall(LINK_PATTERN, data) for url in link_list: print(url)
Q1:怎么匹配href里的字段,有些相同是element似乎只能通过正则来爬取了
Q2:按钮触发的链接怎么爬取,按照静态的爬取只能抓取到页面上能看到的链接,而子节点的链接去无法抓取
Q3:怎么抓取子节点的东西
Q4:为什么 from bs4 import BeautifulSoup失败
ps:chrome driver 确实很好用
以上就是这两天来的学习困惑,待解决#
阅读全文
0 0
- 爬虫之旅(一)
- Python爬虫之旅(一)
- 爬虫爬虫爬虫(一)
- java爬虫 之 搜狐新闻爬虫(一)
- Python开发简单爬虫之爬虫介绍(一)
- python3 网络爬虫(一)反爬虫之我见
- 自学Python之Scrapy爬虫:(一)爬虫基础
- Python 爬虫 之 阅读呼叫转移(一)
- Python 爬虫 之 阅读呼叫转移(一)
- python练手之爬虫篇(一)
- python爬虫之scrapy框架(一)
- 学习Python之网络爬虫(一)
- 网络爬虫之Beautifulsoup入门(一)
- 爬虫学习之Java(一)
- python爬虫之豆瓣图片(一)
- 【爬虫-反爬虫】系列一:反爬虫之cookie(3)
- 【爬虫-反爬虫】系列一:反爬虫之session(4)
- 【爬虫-反爬虫】系列一:反爬虫之验证码(5)
- Android Studio中使用SVN更新和提交
- POJ2236 Wireless Network
- DDL、DML、DQL、DCL之间的区别
- javascript输入某年月某日,判断是这一年的多少天
- Hadoop2.7.3在CentOS 6.5中的集群搭建
- 爬虫之旅(一)
- 素数环
- Java内存模型系列简介
- 51Nod-1781-Pinball
- Oracle 11gR2 RAC 常用维护操作 说明
- mysql数据库管理系统
- K
- TCP/IP 详解卷一学习笔记(二):网络层 IP
- shell基本语法及实现彩色进度条