数据抓取必须学会的三种技术

来源:互联网 发布:带端口的域名解析 编辑:程序博客网 时间:2024/06/03 15:45

我们正处于一个大数据的时代,在这样的一个以数据为王的时代,第一步就是如何获取数据。大概的流程是这样的:通过Http客户端获取html页面,通过html页面解析工具解析html页面,获取感兴趣的数据元素,最后将解析后的数据写入数据库。Python为这几个过程都提供了很方便的库供我们调用,使得数据获取简单快捷。

HTTP客户端

Requests,这里是它的主页
这样一条语句就能获取到html页面了

html = requests.get(url, headers=headers).text 

HTML页面解析器

Beautiful Soup,这里是它的主页
这样一条语句就解析好html页面了

soup = BeautifulSoup(html,"html.parser")

MySQL数据库客户端

PyMySQL,这里是它的主页,都不需要Mysql的驱动库,直接安装使用。

    con = pymysql.connect(host='localhost',                             user='root',                             password='root',                             db='test',                             charset='utf8mb4',                             cursorclass=pymysql.cursors.DictCursor)    try:        with con.cursor() as cursor:            sql = "insert into tbl_movie (title, director, director_factor, actors, actors_factor, year, country, types, rating) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"            cursor.execute(sql, (title, director,director_factor,actors,actors_factor,year,country,types,rating))        con.commit()    finally:        con.close()
0 0
原创粉丝点击