鱼C论坛

 找回密码
 立即注册
查看: 206|回复: 6

python爬虫爬取豆瓣科幻电影名单为啥爬取不了?

[复制链接]
发表于 2021-2-19 16:40:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 浮华_warren 于 2021-2-19 16:42 编辑
  1. import requests
  2. from bs4 import BeautifulSoup
  3. def get_movies():
  4.         headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0','Host':'movie.douban.com'}
  5.         sciencemovies_list=[]
  6.         link='https://movie.douban.com/explore#!type=movie&tag=%E7%A7%91%E5%B9%BB&sort=rank&page_limit=20&page_start=0'
  7.         r=requests.get(link,headers=headers)
  8.         soup=BeautifulSoup(r.text,'lxml')
  9.         list_movies=soup.find_all('a',class_='item')
  10.         for each in list_movies:
  11.                 movie=each.p.text
  12.                 sciencemovies_list.append(movie)
  13.         return sciencemovies_list
  14. movies=get_movies()
  15. print(movies)
复制代码


这是网站源代码

这是网站源代码

爬取什么结果也没有

爬取什么结果也没有
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2021-2-19 19:41:49 | 显示全部楼层

回帖奖励 +1 鱼币

网页源代码中不存在数据,你能爬取到那才是奇迹。。。

去请求数据接口获取数据:https://movie.douban.com/j/search_subjects
携带参数:
type:movie (固定)
tag:科幻(类型)
sort:rank(排序方式,按评价排序,可以固定,除非你有其它要求)
page_limit:20(每一页显示数,可以固定)
page_start:0(翻页参数,每一页+20)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2021-2-19 19:48:57 | 显示全部楼层
YunGuo 发表于 2021-2-19 19:41
网页源代码中不存在数据,你能爬取到那才是奇迹。。。

去请求数据接口获取数据:https://movie.douban.c ...

好的,谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 5 天前 | 显示全部楼层

回帖奖励 +1 鱼币

解决了吗,lz
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 5 天前 | 显示全部楼层

回帖奖励 +1 鱼币

插眼
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 5 天前 | 显示全部楼层

回帖奖励 +1 鱼币

都是大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 5 天前 From FishC Mobile | 显示全部楼层

回帖奖励 +1 鱼币

2001:太空漫游
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1

GMT+8, 2021-2-27 18:11

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表