爬虫
如何解决??? huangdongdong 发表于 2021-5-12 20:59还是不行
问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁
2.没有伪装头
你新发的代码运行成功原因有两个
1.间隔一段时间后爬的
2.设定了编码.decode('utf-8')
可能的情况
你最开始的报错和之后用我给的代码虽然都报错了,但是报错不是同一类型(第一次为服务器拒绝,后面为编码错误) 可能是你爬的频繁了,被服务器拒绝了
也可能是服务器识别出来是个爬虫了
加个头部伪装,试试伪装成浏览器访问
import urllib.request
url = "http://www.fishc.com"
req = urllib.request.Request(url=url, headers={'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, likeGecko)Chrome/71.0.3578.80Safari/537.36'})
res = urllib.request.urlopen(req)
逃兵 发表于 2021-5-10 20:55
可能是你爬的频繁了,被服务器拒绝了
也可能是服务器识别出来是个爬虫了
加个头部伪装,试试伪装成浏览器 ...
还是报错 import urllib.request
url = "http://www.fishc.com"
headers = {'User-Agent': 'User-Agent:Mozilla/5.0'}
req = urllib.request.Request(url, headers=headers)
res = urllib.request.urlopen(req)
我这边尝试我发的几个代码都能运行 本帖最后由 huangdongdong 于 2021-5-10 21:32 编辑
逃兵 发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行
依旧报错。这是为啥呢? 第一句话,可能是你爬的频繁了,被服务器拒绝了 你不能换个网站么{:10_250:}{:10_250:} yu55800 发表于 2021-5-11 16:13
你不能换个网站么
换了还是报错 逃兵 发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行
想问下这个代码是怎么复制粘贴成这种原格式的? 逃兵 发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行
import urllib.request
url = 'http://www.fishc.com/'
html = urllib.request.urlopen(url).read().decode('utf-8')
print(html)这是我网上找的代码,这段代码能成功运行,这是为何???
huangdongdong 发表于 2021-5-11 17:16
这是我网上找的代码,这段代码能成功运行,这是为何???
你今天看看上面的代码是不是都行了,还是只有你从网上找的这一个可以 grey_lemon 发表于 2021-5-11 17:14
想问下这个代码是怎么复制粘贴成这种原格式的?
点击编辑栏的<> 逃兵 发表于 2021-5-11 22:04
你今天看看上面的代码是不是都行了,还是只有你从网上找的这一个可以
还是不行 逃兵 发表于 2021-5-13 08:28
问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁
0:我在网上找的代码有一段是网址'http:/www.fishc.com/',这个网址最后有一个/,当我把这个/删除时就会报错,当我在你提供的代码网址段增加这个/,运行结果不会报错,但是也没有返回任何结果。这是为何???。难道是网址输入不完整???1:我在网上找的代码多次运行都能成功,而且时间间隔很短,而对于你提供的两段代码,他们的报错结果都是相同的
import requests
url = 'http://www.fishc.com/'
html = requests.get(url)
print(html.text) 车小炮 发表于 2021-5-13 17:31
没有requests模块 电脑重启,IP改变一下,这个最简单,也可以使用代理
页:
[1]