有没有通过主页面爬取子页面的链接方法
比如只通过这个网站:movie.douban.com获取到:
movie.douban.com/review/best/
movie.douban.com/tv/
等等.... import requests
import re
headers = {'user-agent': 'Mozilla'}
r = requests.get('http://movie.douban.com', headers=headers)
result = re.findall(r'href="(https://movie.douban.com/.*?)"', r.text)
print(result)
页:
[1]