爬虫进程

来源：互联网发布：python编写上位机编辑：程序博客网时间：2024/05/16 03:47

import timeimport multiprocessingimport requestsimport recookie = {'Cookie':"BAIDUID=AFDBFCAEE39CE519FDD67912907966CF:SL=0:NR=20:FG=1; BIDUPSID=AFDBFCAEE39CE519FDD67912907966CF; PSTM=1487903278; BDUSS=BsYjVzcnJzT3lzR3BkdXpud0E5dWZDVmp3UWFSV00wakdsOU9WTzhzZ2stQ2haSVFBQUFBJCQAAAAAAAAAAAEAAADJDuomyfHS4LrOu7awoQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACRrAVkkawFZNH; H_PS_PSSID=1463_21082_20880_22072; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; PSINO=2; BDRCVFR[Fc9oatPmwxn]=G01CoNuskzfuh-zuyuEXAPCpy49QhP8"}def process(num,url,prname):    yuan = requests.get(url,cookies=cookie).text    demo = re.compile('<a href="(.*?)".*?><span class="fl">(.*?)</span><span.*?>(.*?)</span></a>',re.S)    list = demo.findall(yuan)    for a,b,c in list:        time.sleep(num)        print(prname,a,num)if __name__ == '__main__':    p = multiprocessing.Process(target=process, args=(1,'http://www.maiziedu.com/course/393/','进程1'))    p1 = multiprocessing.Process(target=process, args=(2,'http://www.maiziedu.com/course/373/','进程2'))    p.start()    p1.start()for p in multiprocessing.active_children():    p.join()

阅读全文

0 0