[已解决]请教下爬虫问题

Stubborn · 发表于 2019-1-20 19:54:05

比如我要抓取的这个图集下面的每个图片。为什么只有第一页的正常取到，后面的都取不到，在网页源码里面也没有看到值
第一项对的，后面都是错的
https://i.meizitu.net/2019/01/01e01.jpg
https://i.meizitu.net/2013/08/rosimm-596-024.jpg
https://i.meizitu.net/2013/06/bda3bfadgw1e3eifcebsgj.jpg
https://i.meizitu.net/2016/03/03c04.jpg
https://i.meizitu.net/2013/06/1-10.jpg
https://i.meizitu.net/2016/01/06k06.jpg

import requests,bs4,os
from fake_useragent import UserAgent
ua = UserAgent()
url = "https://www.mzitu.com/166558"
headers = {
'User-Agent': ua.random,
}
page_data = requests.get(url, headers=headers)
soup_data = bs4.BeautifulSoup(page_data.text, 'html.parser')
img_link = soup_data.find_all("span")
Number_of_pages = []
atls_jpg_uri = []
for i in img_link:
#获取到图集张数
try:
ss = int(i.text)
Number_of_pages.append(ss)
except:
pass
print(max(Number_of_pages))
for each in range(1,max(Number_of_pages)+1):
url = url+"/"+str(each)
page_data = requests.get(url, headers=headers)
soup_data = bs4.BeautifulSoup(page_data.text, 'html.parser')
img_ink = soup_data.find_all("div",class_="main-image")
for i in img_ink:
print(i.p.a.img["src"])

复制代码

最佳答案

月排行榜 / 总排行榜

1970-1-1 08:00:00

跳转到最佳答案楼层

罗同学 · 发表于 2019-1-20 19:59:48

上面的链接打不开呢。。。

Stubborn · 发表于 2019-1-20 20:10:35

本帖最后由 Stubborn 于 2019-1-20 20:17 编辑

罗同学发表于 2019-1-20 19:59
上面的链接打不开呢。。。

第一个可以https://i.meizitu.net/2019/01/01e01.jpg，后面都被拒绝，可以打开主链接，https://www.mzitu.com/166558

@塔利班班利塔

Stubborn · 发表于 2019-1-20 20:52:10

iwanna 发表于 2019-1-20 20:47
你志向天天爬黄网吗

兴趣，不是性趣，

主要是没有完成，很纠结，再说真要去小网站，直接去在线的，还带小视频呢~

新手·ing · 发表于 2019-1-20 21:11:25

题主能不能换个头像，我都不敢打开你的帖子。。。

Stubborn · 发表于 2019-1-20 21:15:24

新手·ing 发表于 2019-1-20 21:11
题主能不能换个头像，我都不敢打开你的帖子。。。

emmm 不要想那么多，看帖子

Stubborn · 发表于 2019-1-20 21:24:55

iwanna 发表于 2019-1-20 21:19
应该是缓存策略的问题
在headers里面加上max-age:0试试这个键值对试试

page_data = requests.get(url, headers=headers)

复制代码

我这样添加灭有问题把，上面这行会报错

headers = {
'User-Agent': ua.random,"max-age":0
}

复制代码

Stubborn · 发表于 2019-1-20 21:33:21

iwanna 发表于 2019-1-20 21:30
报什么错你倒是说啊

requests.exceptions.InvalidHeader: Value for header {max-age: 0} must be of type str or bytes, not <class 'int'>

复制代码

C:\Users\Administrator\AppData\Local\Programs\Python\Python37\python.exe C:/Users/Administrator/Desktop/题目测.py
Traceback (most recent call last):
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\utils.py", line 941, in check_header_validity
if not pat.match(value):
TypeError: expected string or bytes-like object
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "C:/Users/Administrator/Desktop/题目测.py", line 9, in <module>
page_data = requests.get(url, headers=headers)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\api.py", line 75, in get
return request('get', url, params=params, **kwargs)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\api.py", line 60, in request
return session.request(method=method, url=url, **kwargs)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\sessions.py", line 519, in request
prep = self.prepare_request(req)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\sessions.py", line 462, in prepare_request
hooks=merge_hooks(request.hooks, self.hooks),
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\models.py", line 314, in prepare
self.prepare_headers(headers)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\models.py", line 448, in prepare_headers
check_header_validity(header)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\utils.py", line 945, in check_header_validity
"bytes, not %s" % (name, value, type(value)))
requests.exceptions.InvalidHeader: Value for header {max-age: 0} must be of type str or bytes, not <class 'int'>

复制代码

Stubborn · 发表于 2019-1-20 22:03:41

本帖最后由 Stubborn 于 2019-1-20 22:29 编辑

iwanna 发表于 2019-1-20 21:45
0换成'0'

还是一样的，我好伤心，我改在修炼几个月，会多线程，图片全部扒下来

Stubborn · 发表于 2019-1-20 22:28:26

iwanna 发表于 2019-1-20 22:27
看错了,是403错误,这个我也不会.要懂后端语言的.爬虫需要的知识比较杂

3Q

Stubborn · 发表于 2019-1-20 22:29:34

iwanna 发表于 2019-1-20 22:28
等高人解释怎么绕过去了

待我在修炼修炼，会多线程，图片全部扒下来，居然欺负我。

Stubborn · 发表于 2019-1-20 22:51:34

iwanna 发表于 2019-1-20 22:45
大哥,你别标已解决啊,这样就没有进来看了啊.就不能解决了啊

账号		自动登录	找回密码
密码			立即注册