鱼C论坛

 找回密码
 立即注册
查看: 2362|回复: 12

[已解决]关于豆瓣爬虫的一个问题

[复制链接]
发表于 2022-9-3 16:27:04 | 显示全部楼层 |阅读模式
10鱼币
  1. import requests
  2. import json
  3. if __name__=="__main__":
  4.     url = "https://movie.douban.com/j/chart/top_list_count?"
  5.     param = {
  6.         'type': '24',
  7.         'interval_id': '100:90',
  8.         'action':' ',
  9.         'start': '1',#表示从库中第几部电影去取
  10.         'limit': '20',#一次请求取出的个数
  11.     }
  12.     headers = {
  13.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
  14.     }
  15.     response = requests.get(url = url,params = param,headers = headers)

  16.     list_data = response.json()

  17.     fp = open('./douban.json','w',encoding = 'utf-8')
  18.     json.dump(list_data,fp = fp,ensure_ascii=False)
  19.     fp.close()
  20.     print("over!!")
复制代码

为啥最后的结果不是我想要的数据呀 来个大佬解释一下
  1. {"playable_count": 469, "total": 594, "unwatched_count": 594}
复制代码

得到的结果是这样的,我不知道是哪一步出错了
最佳答案
2022-9-3 16:27:05
接口都错了,能爬到数据就有G了
  1. import requests
  2. import json

  3. url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20"
  4. headers = {
  5.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
  6. }
  7. response = requests.get(url,headers=headers)

  8. list_data = response.json()

  9. fp = open('./douban.json','w',encoding = 'utf-8')
  10. json.dump(list_data,fp = fp,ensure_ascii=False)
  11. fp.close()
  12. print("over")
复制代码

最佳答案

查看完整内容

接口都错了,能爬到数据就有G了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-3 16:27:05 | 显示全部楼层    本楼为最佳答案   
接口都错了,能爬到数据就有G了
  1. import requests
  2. import json

  3. url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20"
  4. headers = {
  5.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
  6. }
  7. response = requests.get(url,headers=headers)

  8. list_data = response.json()

  9. fp = open('./douban.json','w',encoding = 'utf-8')
  10. json.dump(list_data,fp = fp,ensure_ascii=False)
  11. fp.close()
  12. print("over")
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-3 17:23:35 | 显示全部楼层
你想获取啥数据呢  这个接口返回的数据就是这样的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-3 17:24:02 | 显示全部楼层
你想得到什么呢
要不你检查下你的url是否正确
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-3 19:13:17 | 显示全部楼层
想得到的结果是豆瓣主页面的电影的信息
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-3 20:09:19 | 显示全部楼层
17856563101 发表于 2022-9-3 19:13
想得到的结果是豆瓣主页面的电影的信息

是那个热门电影吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-4 15:12:26 | 显示全部楼层
临时号 发表于 2022-9-3 20:09
是那个热门电影吗

我猜是的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-4 18:09:29 | 显示全部楼层
临时号 发表于 2022-9-3 20:09
是那个热门电影吗

是的就是页面显示的一些电影排名
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-4 21:00:25 From FishC Mobile | 显示全部楼层
你的数据解析出错了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-4 22:07:56 | 显示全部楼层
17856563101 发表于 2022-9-4 18:09
是的就是页面显示的一些电影排名

排名?豆瓣top250?
如果不是的话就发图片出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-9-5 08:37:42 | 显示全部楼层
17856563101 发表于 2022-9-4 18:09
是的就是页面显示的一些电影排名

https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=400&page_start=0
试试这个接口,page_limit是每页显示多少电影,page_start是从第几页显示
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-5 11:16:36 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-5 14:52:56 | 显示全部楼层
临时号 发表于 2022-9-5 13:13
接口都错了,能爬到数据就有G了

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-1 19:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表