新浪微博模拟登录分析(含验证码)

来源:互联网 发布:mysql查看数据库编码 编辑:程序博客网 时间:2024/05/18 03:57

实验室项目结题需要爬取新浪微博的内容做实验,师兄提供了一份已实现的微博爬虫系统。本身可以轻松愉快的完成语聊收集这一部分,然而自己的微博账号始终登录失败。究其原因,结果是登录时需要验证码。而系统对于需要验证码登录的账号只能GG了,谷歌“新浪微博爬虫”相关内容后,发现多数文章(主要参考了豆瓣,百度空间,博客园)都是重复讨论模拟登录的过程。网上的文章并没有提到解决需要验证码登录的问题,或许是因为api没有返回相关的信息,但自己发现最新的微博登录api确实返回了验证码相关的信息,故实现了通过人工输入验证码的方式进行模拟登录。

为了给大家一个对新浪微博登录过程完整的认识,本文也会重复已有文章的内容。

我们知道,对于需要登录验证的网站,当用户第一次登录后,浏览器通过保存该网站服务器返回的cookie值,以便用户再次访问的时候无需登录即可访问。因此,爬虫也是通过模拟一次登录获取cookie值,并保存,然后就能以此登录状态进行资源获取。


接下来开始解析新浪微博登录的过程。 

当输入用户名后,通过Chrome的工具可以看到,此时网站向服务器发送了一个请求。

http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dXNlciU0MGV4YW1wbGUuY29t&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1414332319589  

返回的结果如下: 
 
这是一个js的回调函数,里面包含了一些服务器返回的信息(图中pubkey的信息因截断未显示完全)。此时,我们可能并不知道这些信息的含义,对该url请求的参数也不清晰。通过查看网站的js脚本文件,格式化代码后定位prelogin函数,见下图。从中,我们可以看出,prelogin请求中的su是base64加密后的用户名,callback是请求返回后应执行的回调函数,rsakt、entry、client都是固定值,_很容易猜到是当前的时间戳(其实没有此参数的情况下,也能登录),而checkpin比较重要,与验证码认证有关,在以前的prelogin请求中没有此参数。经验证,当checkpin=1的时候,服务器返回信息中会有一个字段showpin=0|1代表是否需要验证码认证。在preloginCallBack函数中可以看到,将服务器返回的servertime,nonce,pubkey,rsakv,pcid等信息保存,从代码中可以发现与rsa加密有关,其实新浪微博目前正是采用了rsa算法对密码进行加密操作。 
如果showpin的值为1,此时会产生一个新的请求。这个请求返回的结果就是登录需要的验证码图片。

http://login.sina.com.cn/cgi/pin.php?r=87514507&s=0&p=xd-9b5b5d8096a1990aff860ac408eb7dbf7e29  

依然查看网站js代码,参数p其实就是prelogin返回的pcid值,而r是一个随机数,a等于0。 

到这里,登录的准备工作就完成了。当输入完密码(及验证码)后,点击登录,网站将post一些数据至以下url。其中client参数只是简单指明登录api的版本。

http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)  

通过Chrome的调试工具可以看到post数据主要包括以下字段。主要的参数已有prelogin返回,在需要输入验证码的时候,则会有door字段,它的值就是从服务器获取的验证码图片的值,susp分别代表加密后的用户名和密码。 
通过查看相关js代码,可以知道用户名和密码的加密过程。这里,用户名同样是base64加密,而密码则是根据loginType的值进行相应算法加密。不过,由于代码全局设置了this.loginType = rsa;,目前的登录均采用的是rsa加密。从代码中可以看到,密码的加密过程确实使用了prelogin返回的servertime,nonce,pubkey等数据。 
这一步请求返回的结果是包含了网站跳转的html文档。 
上图是登录失败的结果,跳转的url是:

http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&sudaref=weibo.com&retcode=2070&reason=%CA%E4%C8%EB%B5%C4%D1%E9%D6%A4%C2%EB%B2%BB%D5%FD%C8%B7  

其中retcode(=0时表示成功)是错误代码,reason是错误提示信息。(自己实现登录的时候,当retcode!=0时可以直接输出错误信息,无需跳转。) 
在账号信息正确的情况下,请求返回的结果如下图。其中包含了真实登录的跳转链接。当请求此链接时,服务器会返回用于认证的cookie值,此链接请求一次后便失效,该请求成功后则代表此次登录成功。因此,自己实现模拟登录的时候,需要在这一步保存cookie信息,然后就可以利用获取的cookie信息访问登录后的资源。 


以上就是微博登录整个过程。下面提供一个用Python实现的微博登录供大家参考。

# coding=utf8import base64import binasciiimport cookielibimport jsonimport osimport randomimport reimport rsaimport timeimport urllibimport urllib2import urlparsefrom pprint import pprint  __client_js_ver__ = 'ssologin.js(v1.4.18)'  class Weibo(object):     """"Login assist for Sina weibo."""     def __init__(self, username, password):        self.username = self.__encode_username(username).rstrip()        self.password = password         cj = cookielib.LWPCookieJar()        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))     @staticmethod    def __encode_username(username):        return base64.encodestring(urllib2.quote(username))     @staticmethod    def __encode_password(password, info):        key = rsa.PublicKey(int(info['pubkey'], 16), 65537)        msg = ''.join([            str(info['servertime']),            '\t',            str(info['nonce']),            '\n',            str(password)        ])        return binascii.b2a_hex(rsa.encrypt(msg, key))     def __prelogin(self):        url = ('http://login.sina.com.cn/sso/prelogin.php?'               'entry=weibo&callback=sinaSSOController.preloginCallBack&rsakt=mod&checkpin=1&'               'su={username}&_={timestamp}&client={client}'               ).format(username=self.username, timestamp=int(time.time() * 1000), client=__client_js_ver__)         resp = urllib2.urlopen(url).read()        return self.__prelogin_parse(resp)     @staticmethod    def __prelogin_parse(resp):        p = re.compile('preloginCallBack\((.+)\)')        data = json.loads(p.search(resp).group(1))        return data     @staticmethod    def __process_verify_code(pcid):        url = 'http://login.sina.com.cn/cgi/pin.php?r={randint}&s=0&p={pcid}'.format(            randint=int(random.random() * 1e8), pcid=pcid)        filename = 'pin.png'        if os.path.isfile(filename):            os.remove(filename)         urllib.urlretrieve(url, filename)        if os.path.isfile(filename):  # get verify code successfully            #  display the code and require to input            from PIL import Image            import subprocess            proc = subprocess.Popen(['display', filename])            code = raw_input('请输入验证码:')            os.remove(filename)            proc.kill()            return dict(pcid=pcid, door=code)        else:            return dict()     def login(self):        info = self.__prelogin()         login_data = {            'entry': 'weibo',            'gateway': '1',            'from': '',            'savestate': '7',            'useticket': '1',            'pagerefer': '',            'pcid': '',            'door': '',            'vsnf': '1',            'su': '',            'service': 'miniblog',            'servertime': '',            'nonce': '',            'pwencode': 'rsa2',            'rsakv': '',            'sp': '',            'sr': '',            'encoding': 'UTF-8',            'prelt': '115',            'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',            'returntype': 'META'        }        if 'showpin' in info and info['showpin']:  # need to input verify code            login_data.update(self.__process_verify_code(info['pcid']))        login_data['servertime'] = info['servertime']        login_data['nonce'] = info['nonce']        login_data['rsakv'] = info['rsakv']        login_data['su'] = self.username        login_data['sp'] = self.__encode_password(self.password, info)         return self.__do_login(login_data)     def __do_login(self, data):        url = 'http://login.sina.com.cn/sso/login.php?client=%s' % __client_js_ver__        headers = {            'User-Agent': 'Weibo Assist'        }        req = urllib2.Request(            url=url, data=urllib.urlencode(data), headers=headers)        resp = urllib2.urlopen(req).read()         return self.__parse_real_login_and_do(resp)     def __parse_real_login_and_do(self, resp):        p = re.compile('replace\(["\'](.+)["\']\)')        url = p.search(resp).group(1)         # parse url to check whether login successfully        query = urlparse.parse_qs(urlparse.urlparse(url).query)        if int(query['retcode'][0]) == 0:  # successful            self.opener.open(url)  # log in and get cookies            print u'登录成功!'            return True        else:  # fail            print u'错误代码:', query['retcode'][0]            print u'错误提示:', query['reason'][0].decode('gbk')            return False     def urlopen(self, url):        return self.opener.open(url)  if __name__ == '__main__':    weibo = Weibo('user@example.com', 'password')    if weibo.login():        print weibo.urlopen('http://weibo.com').read()        # with open('weibo.html', 'w') as f:        # print >> f, weibo.urlopen('http://weibo.com/kaifulee').read()

#-----------------------------------------------------------

转载于:http://blog.youcanlove.me/xin-lang-wei-bo-deng-lu-fen-xi/

0 0
原创粉丝点击