python爬虫爬取豆瓣科幻电影名单为啥爬取不了?
本帖最后由 浮华_warren 于 2021-2-19 16:42 编辑import requests
from bs4 import BeautifulSoup
def get_movies():
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0','Host':'movie.douban.com'}
sciencemovies_list=[]
link='https://movie.douban.com/explore#!type=movie&tag=%E7%A7%91%E5%B9%BB&sort=rank&page_limit=20&page_start=0'
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text,'lxml')
list_movies=soup.find_all('a',class_='item')
for each in list_movies:
movie=each.p.text
sciencemovies_list.append(movie)
return sciencemovies_list
movies=get_movies()
print(movies)
网页源代码中不存在数据,你能爬取到那才是奇迹。。。
去请求数据接口获取数据:https://movie.douban.com/j/search_subjects
携带参数:
type:movie (固定)
tag:科幻(类型)
sort:rank(排序方式,按评价排序,可以固定,除非你有其它要求)
page_limit:20(每一页显示数,可以固定)
page_start:0(翻页参数,每一页+20) YunGuo 发表于 2021-2-19 19:41
网页源代码中不存在数据,你能爬取到那才是奇迹。。。
去请求数据接口获取数据:https://movie.douban.c ...
好的,谢谢{:5_92:} {:10_254:}解决了吗,lz 插眼 都是大佬 2001:太空漫游{:10_256:}
页:
[1]