a870950142 发表于 2022-11-21 15:57:29

有没有通过主页面爬取子页面的链接方法

比如只通过这个网站:movie.douban.com



获取到:
movie.douban.com/review/best/
movie.douban.com/tv/
等等....

suchocolate 发表于 2022-11-22 00:22:29

import requests
import re

headers = {'user-agent': 'Mozilla'}
r = requests.get('http://movie.douban.com', headers=headers)
result = re.findall(r'href="(https://movie.douban.com/.*?)"', r.text)
print(result)
页: [1]
查看完整版本: 有没有通过主页面爬取子页面的链接方法