python 爬取学信网登录页面

来源:互联网 发布:手机淘宝店铺怎么激活 编辑:程序博客网 时间:2024/06/01 07:24

python 爬取学信网登录页面

我们以学信网为例爬取个人信息
**如果看不清楚
按照以下步骤:**

1.火狐为例 打开需要登录的网页–> F12 开发者模式 (鼠标右击,点击检查元素)–点击网络 –>需要登录的页面登录下–> 点击网络找到 一个POST提交的链接点击–>找到post(注意该post中信息就是我们提交时需要构造的表单信息

这里写图片描述

import requestsfrom bs4 import BeautifulSoupfrom http import cookiesimport urllibimport http.cookiejarheaders = {    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',    'Referer':'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check',}session = requests.Session()session.headers.update(headers)username = '362330199811103775'password = '123456'url = 'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check'def login(username,password,lt,_eventId='submit'):     #模拟登入函数    #构造表单数据    data = { #需要传去的数据            '_eventId':_eventId,            'lt':lt,            'password':password,             'submit':u'登录',            'username':username,     }    html = session.post(url,data=data,headers=headers)def get_lt(url):       #解析登入界面_eventId    html = session.get(url)    #获取 lt    soup = BeautifulSoup(html.text,'lxml',from_encoding="utf-8")    lt=soup.find('input',type="hidden")['value']    return ltlt = get_lt(url)#获取登录form表单信息  以学信网为例login(username,password,lt)login_url = 'https://my.chsi.com.cn/archive/gdjy/xj/show.action'per_html = session.get(login_url)soup = BeautifulSoup(per_html.text,'lxml',from_encoding="utf-8")print(soup)for tag in soup.find_all('table',class_='mb-table'):    print(tag)    for tag1 in tag.find_all('td'):        title= tag1.get_text();         print(title)
原创粉丝点击