百度百科爬虫爬人物信息
来源:互联网 发布:天津测绘院待遇知乎 编辑:程序博客网 时间:2024/06/05 14:55
百度百科爬虫爬人物信息,主要是政治人物的部分信息。
部分代码适应性不高,需进一步修改。
并未设置自动化爬虫,只是对字段进行分类处理。
from bs4 import BeautifulSoupimport pandas as pdimport requestsimport jsonimport timeimport urllibimport refrom urllib.parse import quotename_lt=pd.read_excel('名单.xlsx')name_lt=list(name_lt['名单'])final_result=[]url='https://baike.baidu.com/item/'+name_lt[204]url=quote(url, safe='/:?=')data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')soup=BeautifulSoup(data,"lxml")soup_pr=soup.prettify()fig_cv=soup.find_all("div",class_="lemma-summary")fig_summary=fig_cv[0].text.strip('\n')fig_info={}fig_info['姓名']=fig_summary.split(',')[0].replace('[1]','')fig_info['性别']=fig_summary.split(',')[1]fig_info['民族']=fig_summary.split(',')[2]fig_info['出生年份']=fig_summary.split(',')[3][0:4]fig_info['出生月份']=fig_summary.split(',')[3].split('年')[1].strip('月生')fig_info['出生省份']=fig_summary.split(',')[4][0:2]fig_info['出生城市']=fig_summary.split(',')[4].rstrip('人')[-2:]fig_info['其他']=fig_summary.split(',',5)[5]for fig_exp in soup.find_all("div",class_="para-title level-2"): result=[] tmp=fig_exp #tmp=tmp.span.clear() key=tmp.text.replace(fig_info['姓名'],'') fig_start=fig_exp.next_sibling result=[] for sibling in fig_start.next_siblings: if sibling!='\n': if sibling.has_attr('class'): if sibling['class'][0]!='para': break else: result.append(sibling.text) fig_info[key]=resultfinal_result.append(fig_info)
阅读全文
0 0
- 百度百科爬虫爬人物信息
- 输入名字,爬取百度百科人物信息
- Python 简单爬虫实现(爬取百度百科信息)
- Python开发爬虫爬取百度百科词条信息(源码下载)
- Python爬虫_BeautifulSoup爬取百度百科
- Python爬虫,爬取百度百科词条
- Python爬虫爬取百度百科词条
- 百度百科爬虫
- 爬虫-百度百科
- 网络爬虫:百度百科
- 百度百科爬虫PHP
- Python简易百度百科爬虫
- 百度百科多线程网络爬虫
- python爬虫-百度百科词条
- 百度百科多线程爬虫(Java)
- 简单的python爬虫(爬取百度百科词条)
- python3 爬虫学习-根据关键词爬取百度百科内容
- Python爬虫爬取百度百科内容实例
- HDU 1120 Constructing Roads
- 安卓通过UDP协议传输数据,中文乱码的问题
- 安装 删除 卸载 Deb 包文件
- IOS push后隐藏返回按钮
- The run destination''''is not valid for Running the scheme
- 百度百科爬虫爬人物信息
- 模仿App后台切换到前台显示闪屏(广告)页面
- dubbo报错Data length too large: 10710120处理,及服务提供者协议配置详细说明
- weex 构建项目
- spring cloud stream配置多个kafka binders
- 洛谷 [P1198] 最大数
- leetcode: 10. Regular Expression Matching [✗]
- angular环境安装
- leetcode 99. Recover Binary Search Tree