17856563101 发表于 2022-9-3 16:27:04

关于豆瓣爬虫的一个问题

import requests
import json
if __name__=="__main__":
    url = "https://movie.douban.com/j/chart/top_list_count?"
    param = {
      'type': '24',
      'interval_id': '100:90',
      'action':' ',
      'start': '1',#表示从库中第几部电影去取
      'limit': '20',#一次请求取出的个数
    }
    headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
    }
    response = requests.get(url = url,params = param,headers = headers)

    list_data = response.json()

    fp = open('./douban.json','w',encoding = 'utf-8')
    json.dump(list_data,fp = fp,ensure_ascii=False)
    fp.close()
    print("over!!")

为啥最后的结果不是我想要的数据呀{:10_285:} 来个大佬解释一下
{"playable_count": 469, "total": 594, "unwatched_count": 594}
得到的结果是这样的,我不知道是哪一步出错了

临时号 发表于 2022-9-3 16:27:05

接口都错了,能爬到数据就有G了
import requests
import json

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
}
response = requests.get(url,headers=headers)

list_data = response.json()

fp = open('./douban.json','w',encoding = 'utf-8')
json.dump(list_data,fp = fp,ensure_ascii=False)
fp.close()
print("over")

ZhKQYu 发表于 2022-9-3 17:23:35

你想获取啥数据呢这个接口返回的数据就是这样的

Lai013 发表于 2022-9-3 17:24:02

你想得到什么呢
要不你检查下你的url是否正确

17856563101 发表于 2022-9-3 19:13:17

想得到的结果是豆瓣主页面的电影的信息

临时号 发表于 2022-9-3 20:09:19

17856563101 发表于 2022-9-3 19:13
想得到的结果是豆瓣主页面的电影的信息

是那个热门电影吗

hveagle 发表于 2022-9-4 15:12:26

临时号 发表于 2022-9-3 20:09
是那个热门电影吗

我猜是的

17856563101 发表于 2022-9-4 18:09:29

临时号 发表于 2022-9-3 20:09
是那个热门电影吗

是的就是页面显示的一些电影排名

ll.pc 发表于 2022-9-4 21:00:25

你的数据解析出错了

临时号 发表于 2022-9-4 22:07:56

17856563101 发表于 2022-9-4 18:09
是的就是页面显示的一些电影排名

排名?豆瓣top250?
如果不是的话就发图片出来

ZhKQYu 发表于 2022-9-5 08:37:42

17856563101 发表于 2022-9-4 18:09
是的就是页面显示的一些电影排名

https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=400&page_start=0
试试这个接口,page_limit是每页显示多少电影,page_start是从第几页显示

17856563101 发表于 2022-9-5 11:16:36

是这个页面
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=

17856563101 发表于 2022-9-5 14:52:56

临时号 发表于 2022-9-5 13:13
接口都错了,能爬到数据就有G了

{:10_266:}
页: [1]
查看完整版本: 关于豆瓣爬虫的一个问题