本帖最后由 sfqxx 于 2023-4-6 20:03 编辑
您好!以下是一个使用Python的最新的爬取豆瓣电影页面的示例代码:
- import requests
- from bs4 import BeautifulSoup
- url = 'https://movie.douban.com/top250'
- headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
- response = requests.get(url, headers=headers)
- soup = BeautifulSoup(response.text, 'html.parser')
- movie_list = soup.find_all('div', class_='hd')
- for i in range(len(movie_list)):
- movie_name = movie_list[i].a.span.text
- print(f'{i+1}. {movie_name}')
复制代码
首先,我们导入requests和BeautifulSoup库。然后指定网址和请求头信息。发送请求并使用BeautifulSoup解析HTML文档。最后,我们通过查找包含电影标题的HTML元素来提取所需信息。
请注意,这只是一个简单的示例代码,您可以根据个人需要对其进行修改和扩展。同时,请务必遵守网站的爬取规则和法律法规,以免触犯相关法律。
备注说明:因为动态渲染(
https://www.nuanshi100.com/wenda ... &c=&p=22291),所以在F12里看到的不是requests爬到的。用Selenieum可以解决这个问题