实现用火狐进行动态网页抓取

来源:互联网 发布:数据分析专业 大学 编辑:程序博客网 时间:2024/05/21 14:02
# -*- coding: utf-8 -*-import sys,refrom lxml import etreeimport  timefrom selenium import webdriverimport osimport pymysqlhost = '服务器IP'dbName = '数据库名'user = '数据库登陆用户名'password = '数据库登陆密码'db = pymysql.connect(host, user, password, dbName, charset='utf8')cursor = db.cursor()cursor.execute("DROP TABLE IF EXISTS EMPLOYEE")  sql = """CREATE TABLE EMPLOYEE (SYMBOL CHAR(6) NOT NULL,NAME CHAR(10),PRICE CHAR(10))"""cursor.execute(sql)driver = webdriver.Firefox()  #打开火狐浏览器driver.set_window_position(x=70,y=30)   #设置火狐浏览器位置driver.set_window_size(width=1064, height=524) #设置火狐浏览器窗口大小f = open("symbol.txt", 'r')   # 以只读方式打开当前路径下的symbol.txt文件for line in f.readlines():   line = line.replace("\n", "")  # 提取每行数据,去掉换行符   url = "url1"+line+"url2"  # url拼接   driver.get(url)  #输入需要访问的URL   time.sleep(3)    #等待3   content = driver.page_source.encode('utf-8') #网页内容转码utf8   html = etree.HTML(content)   price = html.xpath('.//*[@class="ico_data col_open"]/text()') #提取价格   name = html.xpath('.//*[@class="ico_name label_open"]/text()') #提取名称   symbolname = ''.join(name)   price = ''.join(price)   print(line, symbolname, price)   cursor = db.cursor()   sql1 = ("INSERT INTO EMPLOYEE(SYMBOL, NAME, PRICE) VALUES ('%s', '%s', '%s')" % (str(line), symbolname, str(price)))   cursor.execute(sql1)   db.commit()  #提交数据db.close() #关闭数据库f.close()  #关闭symbol文件driver.quit() #退出浏览器
阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 女性保健养生馆 上门足疗保健 重庆洗浴 夫妻用品 健康养生知识 宝健 性趣用品 宝建 男女情趣用品 健康常识 男人保健品 性情趣用品 宝健中国 夫妻用品大全图片 男士保健品 性保药品 男性保保健品 男人的保健品 情趣用品商城 保建 女性成人用品 男人健康 中国宝健 男女用品 保健品男性 情趣故事 夫妻保健品 性保保健品批发 健康产品 养生品 健康测试 健康的生活方式 女人健康 39男人健康网 健康来了 养生艾灸 大健康 健康图片 健康产业网 000913农银医疗保健 000831工银医疗保健