python爬虫学习--pixiv爬虫(1)--p站爬虫的登录

来源:互联网 发布:达芬奇家具 知乎 编辑:程序博客网 时间:2024/05/16 09:57

前段时间看了点爬虫的知识,自己也写了点,不怎么太好。。。总有错。。。

冷却了一段时间继续我的爬虫学习。。。


这次我的目标是爬遍pixiv。。。

(虽然有些不可能。。。

不过一点点来。。。


首先我们登陆一下看下p站登陆时的请求头信息


同时我们还需要看一下post方法我们要用到的参数


这样就可以进行p站爬虫登录功能的编写了


#coding:UTF-8import urllibimport urllib2import cookieliburl = 'https://www.pixiv.net/login.php'filename = 'cookie.txt'cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))#build_opener函数是用来自定义opener对象的函数login_data = urllib.urlencode({    'mode':'login',    'pass':'password',#你的账号密码    'pixiv_id':'pixivid',#你的pixivid    'return_to':'/',    'skip':1    })#这个是p站的登陆信息header = {    'Accept-Language':'zh-CN,zh;q=0.8',    'Referer':'https://www.pixiv.net/login.php?return_to=0',    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0'    }#登陆所使用的请求头信息request = urllib2.Request(    url,    data = login_data,    headers = header)login_pixiv = opener.open(request)#利用前面的请求头信息与cookie信息进行登陆cookie.save(ignore_discard = True , ignore_expires = True)#登陆成功后进入收藏界面bookmark_url = 'http://www.pixiv.net/bookmark.php'login_pixiv =opener.open(bookmark_url)page = login_pixiv.read()file_html = open('pixiv-1.html','w')file_html.write(page)file_html.close()print page  #其实这个print我只是想看看是否登陆成功

上面的代码可已实现p站的登陆,下一步就是进一步分析代码将我们想要的图片爬下来。

1 0
原创粉丝点击