百度百科爬虫爬人物信息

来源:互联网 发布:天津测绘院待遇知乎 编辑:程序博客网 时间:2024/06/05 14:55

百度百科爬虫爬人物信息,主要是政治人物的部分信息。

部分代码适应性不高,需进一步修改。

并未设置自动化爬虫,只是对字段进行分类处理。



from bs4 import BeautifulSoupimport pandas as pdimport requestsimport jsonimport timeimport urllibimport refrom urllib.parse import quotename_lt=pd.read_excel('名单.xlsx')name_lt=list(name_lt['名单'])final_result=[]url='https://baike.baidu.com/item/'+name_lt[204]url=quote(url, safe='/:?=')data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')soup=BeautifulSoup(data,"lxml")soup_pr=soup.prettify()fig_cv=soup.find_all("div",class_="lemma-summary")fig_summary=fig_cv[0].text.strip('\n')fig_info={}fig_info['姓名']=fig_summary.split(',')[0].replace('[1]','')fig_info['性别']=fig_summary.split(',')[1]fig_info['民族']=fig_summary.split(',')[2]fig_info['出生年份']=fig_summary.split(',')[3][0:4]fig_info['出生月份']=fig_summary.split(',')[3].split('年')[1].strip('月生')fig_info['出生省份']=fig_summary.split(',')[4][0:2]fig_info['出生城市']=fig_summary.split(',')[4].rstrip('人')[-2:]fig_info['其他']=fig_summary.split(',',5)[5]for fig_exp in soup.find_all("div",class_="para-title level-2"):    result=[]    tmp=fig_exp    #tmp=tmp.span.clear()    key=tmp.text.replace(fig_info['姓名'],'')    fig_start=fig_exp.next_sibling    result=[]    for sibling in fig_start.next_siblings:        if sibling!='\n':            if sibling.has_attr('class'):                if sibling['class'][0]!='para':                    break                else:                    result.append(sibling.text)    fig_info[key]=resultfinal_result.append(fig_info)