requests模块和正则表达式爬豆瓣电影top250,Python交流,编程语言专区,鱼C论坛

wcq15759797758 发表于 2022-5-3 15:17:05

requests模块和正则表达式爬豆瓣电影top250

本帖最后由 wcq15759797758 于 2022-5-3 15:18 编辑

复盘爬虫（一）

import re
import requests

def main(url):
headers = {
 'User-Agent': ('Mozilla/5.0 (compatible; MSIE 9.0; '
 'Windows NT 6.1; Win64; x64; Trident/5.0)'),
 }
respomse = requests.get(url=url,headers=headers)
respomse.encoding='utf-8'
html = respomse.text
obj = re.compile(r'<li>.*?<div class="item">.*?(?P<name>.*?)'
 r'.*?.*? (?P<year>.*?)&nbsp.*?(?P<PF>.*?)',re.S)
resulf = obj.finditer(html)
for i in resulf:
 '''print(i.group('name'))
 print(i.group('year').strip())
 print(i.group('PF'))
 '''
 item = {}
 item['name'] = i.group('name')
 item['year'] = i.group('year').strip()
 item['评分'] = i.group('PF')
 print(item)

if __name__ == '__main__':
for page in range(0,275,25):
 url = f'https://movie.douban.com/top250?start={page}'
 main(url=url,headers=headers)

amazed 发表于 2022-5-4 00:31:11

666666666666666666

myqf123 发表于 2022-5-4 23:16:36

{:10_300:}

hornwong 发表于 2022-5-5 00:28:09

{:5_106:}

1molHF 发表于 2022-5-5 01:13:24

{:10_256:}

burntlime 发表于 2022-5-5 07:36:48

{:10_277:}

kerln888 发表于 2022-5-5 08:59:01

{:10_256:}{:10_256:}{:10_256:}{:10_256:}{:10_256:}

超级无敌磊果果 发表于 2022-5-5 09:23:41

{:7_146:}

fendou501 发表于 2022-5-5 12:57:20

response是故意写成respomse来气我们强迫症吗{:5_96:}

1271425661 发表于 2022-5-5 14:18:48

{:10_254:}

山迟ovo 发表于 2022-5-5 18:11:50

{:10_275:}

AlexTao 发表于 2022-5-5 19:09:12

copy and paste... but failed....

ENHEN 发表于 2022-5-21 23:24:00

最后一行headers=headers是不是多出来的实参，不删掉运行不了{:10_256:}https://cdn.jsdelivr.net/gh/master-of-forums/master-of-forums/public/images/patch.gif

liuliu2 发表于 2022-8-3 23:13:51

学到了！！！！！！！！！

页: [1]

鱼C论坛's Archiver

requests模块和正则表达式爬豆瓣电影top250