马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
敲了好久的字然后帖子被吞了
裂开
这个帖子主要是给爬虫萌新看的
希望能有帮助
如果有大佬看到的话,讲的不好的希望能指点一下
谢谢
网址 ‘https://movie.douban.com/explore ... =%E7%83%AD%E9%97%A8’import requests
import json
url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=time&page_limit=2000&page_start=0'
headers = {'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}
r = requests.get(url,headers=headers)
html = r.text #获取Response对象的字符串内容
j = json.loads(html) #将josn格式(字符串)转化为字典
movie_data = []
i = 0
for item in j["subjects"]:
movie = {}
movie["title"] = item["title"]
movie["url"] = item["url"]
movie["cover"] = item["cover"]
movie["rate"] = item["rate"]
movie_data.append(movie)
print(movie)
这里不用re或者xpath的原因是因为
所以无法直接从网页源码获取全部想要的数据
所以打开f12
我们可以找到
但是这里也只有20条数据
所以我们来看看它的参数
这里记得要加上请求头
我们可以注意到这里limit和start这两个参数
我们通过网页的刷新可以发现limit的参数就代表了显示的数据的量
start 的参数就表示了开始显示的是第几个数据
因此我们要将limit的参数改成大于所有数据的数
就可以获取到含全部数据的json文件啦
|