Python爬取百度百科,BeautifulSoup提取关键信息
来源:互联网 发布:mac在线安装系统 编辑:程序博客网 时间:2024/06/04 19:13
本文主要爬取演员杨幂的百度百科,用到的python库有:requests和BeautifulSoup
主要内容共分为以下两个方面:
1、 用requests爬取网页内容
2、 用BeautifulSoup提取关键信息
以下为全部代码:
import requestsfrom bs4 import BeautifulSoupurl="https://baike.baidu.com/item/%E6%9D%A8%E5%B9%82/149851?fr=aladdin"r=requests.get(url)r.encoding=r.apparent_encodingdemo=r.textsoup=BeautifulSoup(demo,"html.parser")print(soup.title.get_text())p=soup.find_all("dt","basicInfo-item name")t=soup.find_all("dd","basicInfo-item value")print(p[0].get_text(),":")print(t[0].get_text())#中文名print(p[1].get_text(),":")print(t[1].get_text())#外文名print(p[2].get_text(),":")print(t[2].get_text())#别名print(p[3].get_text(),":")print(t[3].get_text())#国籍print(p[4].get_text(),":")print(t[4].get_text())#民族print(p[5].get_text(),":")print(t[5].get_text())#星座print(p[6].get_text(),":")print(t[6].get_text())#血型print(p[7].get_text(),":")print(t[7].get_text())#身高print(p[8].get_text(),":")print(t[8].get_text())#体重print(p[9].get_text(),":")print(t[9].get_text())#出生地print(p[10].get_text(),":")print(t[10].get_text())#出生日期print(p[11].get_text(),":")print(t[11].get_text())#职业print(p[12].get_text(),":")print(t[12].get_text())#毕业院校print(p[13].get_text(),":")print(t[13].get_text())#经纪公司print(p[14].get_text(),":")print(t[14].get_text())#代表作品print(p[15].get_text(),":")print(t[15].get_text())#主要成就print(p[16].get_text(),":")print(t[16].get_text())#唱片公司print(p[17].get_text(),":")print(t[17].get_text())#配偶print(p[18].get_text(),":")print(t[18].get_text())#女儿print(p[19].get_text(),":")print(t[19].get_text())#生肖print(p[20].get_text(),":")print(t[20].get_text())#粉丝名
运行结果为:
杨幂_百度百科
中文名 :
杨幂
外文名 :
Yang Mi,Mini
别 名 :
紫曦、幂幂、狐狸、小幂、狐小幂、大幂幂
国 籍 :
中国
民 族 :
汉族
星 座 :
处女座
血 型 :
B型
身 高 :
166.5cm(净身高)
体 重 :
45kg
出生地 :
北京市
出生日期 :
1986年9月12日
职 业 :
演员、歌手、制片人
毕业院校 :
北京电影学院
经纪公司 :
嘉行杨幂工作室
代表作品 :
宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君
主要成就 :
中国电视金鹰奖最具人气女演员
上海电视节白玉兰奖最具人气女演员
休斯顿国际电影节最佳女主角
唱片公司 :
少城时代
配 偶 :
刘恺威(2014年1月8日婚礼)
女 儿 :
小糯米(2014年6月1日出生)
生 肖 :
虎
粉丝名 :
蜜蜂
阅读全文
0 0
- Python爬取百度百科,BeautifulSoup提取关键信息
- Python 简单爬虫实现(爬取百度百科信息)
- python爬取百度百科
- Python爬虫_BeautifulSoup爬取百度百科
- Python爬取百度百科页面数据
- Python爬虫,爬取百度百科词条
- Python爬虫爬取百度百科词条
- python爬取百度百科词条内容
- Python开发爬虫爬取百度百科词条信息(源码下载)
- scrapy+beautifulsoup+mongo数据库简单爬虫——利用搜索关键词爬取百度百科城市地理信息
- 输入名字,爬取百度百科人物信息
- 简单的python爬虫(爬取百度百科词条)
- Python爬虫爬取百度百科内容实例
- Python爬取百度百科1000个页面
- 用Python从百度百科爬取十个页面
- python爬虫入门--爬取百度百科10000条记录
- Python3 爬取百度百科
- 爬取糗事百科上的段子(BeautifulSoup)
- myeclipse优化启动
- Spring的事务管理入门:编程式事务管理(TransactionTemplate)
- 不同风格的for语句
- 享受学习IT的快乐---终于走进你
- ocos2dx-lua采用pbc解析protobuf 不支持message嵌套和枚举不支持整数的处理方法
- Python爬取百度百科,BeautifulSoup提取关键信息
- python 字典
- HDU 1863 畅通工程(prim最小生成树)
- 【游记】记NOIP2017滚粗之旅
- (M)Backtracking:17. Letter Combinations of a Phone Number
- XAMPP安装配置教程(Windows)
- C++学习笔记——函数的参数传递
- 添加STC的MCU進Keil4
- 页面之间的通信