wcq15759797758 发表于 2022-5-3 15:17:05

requests模块和正则表达式爬豆瓣电影top250

本帖最后由 wcq15759797758 于 2022-5-3 15:18 编辑

复盘爬虫(一)

import re
import requests

def main(url):
    headers = {
      'User-Agent': ('Mozilla/5.0 (compatible; MSIE 9.0; '
                     'Windows NT 6.1; Win64; x64; Trident/5.0)'),
      }
    respomse = requests.get(url=url,headers=headers)
    respomse.encoding='utf-8'
    html = respomse.text
    obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)'
                     r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<PF>.*?)</span>',re.S)
    resulf = obj.finditer(html)
    for i in resulf:
      '''print(i.group('name'))
      print(i.group('year').strip())
      print(i.group('PF'))
      '''
      item = {}
      item['name'] = i.group('name')
      item['year'] = i.group('year').strip()
      item['评分'] = i.group('PF')
      print(item)

if __name__ == '__main__':
    for page in range(0,275,25):
      url = f'https://movie.douban.com/top250?start={page}'
      main(url=url,headers=headers)

amazed 发表于 2022-5-4 00:31:11

666666666666666666

myqf123 发表于 2022-5-4 23:16:36

{:10_300:}

hornwong 发表于 2022-5-5 00:28:09

{:5_106:}

1molHF 发表于 2022-5-5 01:13:24

{:10_256:}

burntlime 发表于 2022-5-5 07:36:48

{:10_277:}

kerln888 发表于 2022-5-5 08:59:01

{:10_256:}{:10_256:}{:10_256:}{:10_256:}{:10_256:}

超级无敌磊果果 发表于 2022-5-5 09:23:41

{:7_146:}

fendou501 发表于 2022-5-5 12:57:20

response是故意写成respomse来气我们强迫症吗{:5_96:}

1271425661 发表于 2022-5-5 14:18:48

{:10_254:}

山迟ovo 发表于 2022-5-5 18:11:50

{:10_275:}

AlexTao 发表于 2022-5-5 19:09:12

copy and paste... but failed....

ENHEN 发表于 2022-5-21 23:24:00

最后一行headers=headers是不是多出来的实参,不删掉运行不了{:10_256:}https://cdn.jsdelivr.net/gh/master-of-forums/master-of-forums/public/images/patch.gif

liuliu2 发表于 2022-8-3 23:13:51

学到了!!!!!!!!!
页: [1]
查看完整版本: requests模块和正则表达式爬豆瓣电影top250