抓取北京影讯的电影信息
来源:互联网 发布:汤恩伯 知乎 编辑:程序博客网 时间:2024/04/29 06:27
# -*- coding: utf-8 -*-
import urllib2
import os
import re
def mean_audience_score(FilmId):
arv = 0.0
sc_url = "http://movie.mtime.com/" + FilmId + "/"
sc_req = urllib2.Request(sc_url, headers={'User-Agent': "Magic Browser"})
sc_page = urllib2.urlopen(sc_req)
sc_strw = sc_page.read() # 读入 网站源码
sc_str = re.findall(r'<span class="db_point ml6">+\d+\.+\d+</span>', sc_strw) # 匹配评分的数字
if len(sc_str) == 0:
return arv
for tt in sc_str:
scsc = re.findall(r'\d+\.+\d', tt) # 取出每个人对电影的评分,取出观众的评分
arv = arv + float(scsc[0]) # 所有观众对电影的评分总和
return arv / len(sc_str)
#------------------------------------------------------------------------------------------------------------------------------------------------------------
url = 'http://theater.mtime.com/China_Beijing/' # 1.需抓取的网址
req = urllib2.Request(url, headers={
'User-Agent': "Magic Browser"}) # 2.urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])
webpage = urllib2.urlopen(req) # urllib2.urlopen(url[, data][, timeout])
strw = webpage.read()
tg_start = strw.find('hotplaySvList = [') # str.find(str, beg=0, end=len(string))
if tg_start == -1:
print 'not find start tag'
os.exit()
tmp = strw[tg_start:-1]
tg_end = tmp.find(';')
if tg_end == -1:
print 'not find end tag'
os.exit()
tmp = tmp[len(' hotplaySvList = ['):tg_end]
tar_ls = tmp.split("},{") # str.split(str="", num=string.count(str)) # 3. 用},{切分字符串
dict_film = {} # 定义字典
for t0 in tar_ls:
ls_t = t0.split(',')
id = ls_t[0].split(':')[-1].strip() #
film = ls_t[-1].split('"')[-2].strip() #
dict_film[id] = film #
for t in dict_film:
print "id: " + t + " film: ", dict_film[t]
print 'ok total : ' + `len(dict_film)`
for t in dict_film:
score = mean_audience_score(t)
print "id: " + t + " film: " + dict_film[t] + " score: " + `score`
阅读全文
0 0
- 抓取北京影讯的电影信息
- Python抓取电影天堂电影信息
- 入门级爬虫 抓取豆瓣top250 的电影信息
- 数据抓取之(一):抓取北京交通管理网站的车辆违法信息(已完结)
- 数据抓取之(一):抓取北京交通管理网站的车辆违法信息(已完结)
- 使用python抓取豆瓣电影信息
- scrapy抓取一个电影网站信息
- python3的爬虫抓取猫眼电影的信息(requests+正则表达式)
- 爬取电影天堂的电影信息
- 三种方法抓取猫眼电影top100信息
- Requests加正则表达式抓取猫电影信息
- [Python]抓取豆瓣电影列表的标题
- 分布式视频信息爬虫,抓取豆瓣,bilibili等中的电视剧、电影、动漫演员等信息
- 北京周遍的温泉信息
- 简单抓取豆瓣电影
- 抓取豆瓣电影
- python抓取豆瓣电影
- ASP 信息抓取的思路
- 【Openjudge】十进制数字转二进制数
- JVM的分区以及分区内容和GC
- [codeforces375D]Tree and Queries(dsu on the tree+bit)
- python不会的知识点整理
- 连接池(JNDI)的使用步骤
- 抓取北京影讯的电影信息
- 第四周项目---建设双链表算法库
- Eclipse配置skpet实现代码提示,并设置js文件的默认打开方式
- Python探索之路(一)---简介
- 【MIP官方博客】mip-semi-fixed 走走又停停
- UVALive-4126 AC自动机
- 一张通往计算机世界的地图
- NetworkOnMainThreadException
- 040 罗尔定理与零点定理、介值定理综合应用;柯西中值定理; 型二( f(n) (ξ) =0 )