鱼C论坛

 找回密码
 立即注册
查看: 6676|回复: 17

[已解决]爬虫

[复制链接]
发表于 2021-5-10 20:33:41 | 显示全部楼层 |阅读模式
10鱼币
如何解决???
最佳答案
2021-5-10 20:33:42

问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁
2.没有伪装头
你新发的代码运行成功原因有两个
1.间隔一段时间后爬的
2.设定了编码.decode('utf-8')

可能的情况
你最开始的报错和之后用我给的代码虽然都报错了,但是报错不是同一类型(第一次为服务器拒绝,后面为编码错误)
QQ截图20210510203138.png

最佳答案

查看完整内容

问题上的报错是被服务器拒绝了 原因可能有两个 1.爬的频繁 2.没有伪装头 你新发的代码运行成功原因有两个 1.间隔一段时间后爬的 2.设定了编码.decode('utf-8') 可能的情况 你最开始的报错和之后用我给的代码虽然都报错了,但是报错不是同一类型(第一次为服务器拒绝,后面为编码错误)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-10 20:33:42 | 显示全部楼层    本楼为最佳答案   

问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁
2.没有伪装头
你新发的代码运行成功原因有两个
1.间隔一段时间后爬的
2.设定了编码.decode('utf-8')

可能的情况
你最开始的报错和之后用我给的代码虽然都报错了,但是报错不是同一类型(第一次为服务器拒绝,后面为编码错误)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-10 20:55:10 | 显示全部楼层
可能是你爬的频繁了,被服务器拒绝了
也可能是服务器识别出来是个爬虫了
加个头部伪装,试试伪装成浏览器访问
import urllib.request
url = "http://www.fishc.com"
req = urllib.request.Request(url=url, headers={'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, likeGecko)Chrome/71.0.3578.80Safari/537.36'})
res = urllib.request.urlopen(req)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-10 21:10:31 | 显示全部楼层
逃兵 发表于 2021-5-10 20:55
可能是你爬的频繁了,被服务器拒绝了
也可能是服务器识别出来是个爬虫了
加个头部伪装,试试伪装成浏览器 ...

还是报错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-10 21:20:21 | 显示全部楼层
import urllib.request
url = "http://www.fishc.com"
headers = {'User-Agent': 'User-Agent:Mozilla/5.0'}
req = urllib.request.Request(url, headers=headers)
res = urllib.request.urlopen(req)

我这边尝试我发的几个代码都能运行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-10 21:30:58 | 显示全部楼层
本帖最后由 huangdongdong 于 2021-5-10 21:32 编辑
逃兵 发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行

依旧报错。这是为啥呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 15:59:23 | 显示全部楼层
第一句话,可能是你爬的频繁了,被服务器拒绝了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 16:13:17 | 显示全部楼层
你不能换个网站么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-11 16:59:16 | 显示全部楼层
yu55800 发表于 2021-5-11 16:13
你不能换个网站么

换了还是报错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 17:14:09 | 显示全部楼层
逃兵 发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行

想问下这个代码是怎么复制粘贴成这种原格式的?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-11 17:16:55 | 显示全部楼层
逃兵 发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行
import urllib.request
url = 'http://www.fishc.com/'
html = urllib.request.urlopen(url).read().decode('utf-8')
print(html)
这是我网上找的代码,这段代码能成功运行,这是为何???
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 22:04:31 | 显示全部楼层
huangdongdong 发表于 2021-5-11 17:16
这是我网上找的代码,这段代码能成功运行,这是为何???

你今天看看上面的代码是不是都行了,还是只有你从网上找的这一个可以
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 22:05:07 | 显示全部楼层
grey_lemon 发表于 2021-5-11 17:14
想问下这个代码是怎么复制粘贴成这种原格式的?

点击编辑栏的<>
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-12 20:59:09 | 显示全部楼层
逃兵 发表于 2021-5-11 22:04
你今天看看上面的代码是不是都行了,还是只有你从网上找的这一个可以

还是不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-13 16:41:43 | 显示全部楼层
逃兵 发表于 2021-5-13 08:28
问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁

0:我在网上找的代码有一段是网址'http:/www.fishc.com/',这个网址最后有一个/,当我把这个/删除时就会报错,当我在你提供的代码网址段增加这个/,运行结果不会报错,但是也没有返回任何结果。这是为何???。难道是网址输入不完整???1:我在网上找的代码多次运行都能成功,而且时间间隔很短,而对于你提供的两段代码,他们的报错结果都是相同的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-13 17:31:20 | 显示全部楼层
import requests
url = 'http://www.fishc.com/'
html = requests.get(url)
print(html.text)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-13 17:37:41 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-15 17:11:09 | 显示全部楼层
电脑重启,IP改变一下,这个最简单,也可以使用代理



想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-15 19:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表