今天的我更强了 发表于 2020-6-24 13:41:54

关于爬虫隐藏

按照小甲鱼的代码
import urllib.request

url='http://www.whatismyip.com.tw'
proxy_support=urllib.request.ProxyHandler({'http':'119.142.197.77:4216'})
opener=urllib.request.build_opener(proxy_support)
urllib.request.install_opener(opener)
resopnse=urllib.request.urlopen(url)
html=response.read().decode('utf-8')
print(html)
输入之后过很久 输出为 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
是因为ip不可用嘛?

Twilight6 发表于 2020-6-24 13:45:20


话说你这里代码错了哈哈:

resopnse=urllib.request.urlopen(url)
html=response.read().decode('utf-8')

不是IP问题,是这个网站有问题

今天的我更强了 发表于 2020-6-24 13:52:26

Twilight6 发表于 2020-6-24 13:50
这个是网站问题,不是 iP的问题

新人学爬虫 不太懂 ,这种换个网址?也不知道换啥..

Hoiste 发表于 2020-6-24 13:52:39

一般是网络不好或者网站的服务器现在拥挤中,还有防火墙之类的问题

Twilight6 发表于 2020-6-24 13:55:55

今天的我更强了 发表于 2020-6-24 13:52
新人学爬虫 不太懂 ,这种换个网址?也不知道换啥..


http://httpbin.org/get换这个网站

我评论频繁了

今天的我更强了 发表于 2020-6-24 13:57:02

Hoiste 发表于 2020-6-24 13:52
一般是网络不好或者网站的服务器现在拥挤中,还有防火墙之类的问题

有什么解决方案嘛{:10_243:}

Hoiste 发表于 2020-6-24 14:06:05

今天的我更强了 发表于 2020-6-24 13:57
有什么解决方案嘛

没有太好的解决办法,毕竟如果不是代码问题的话,就只能看网络和服务器了

wp231957 发表于 2020-6-24 14:08:12

是练习使用代理ip 做爬虫吗   你确保你的代理ip 没有失效吗

今天的我更强了 发表于 2020-6-24 14:09:09

wp231957 发表于 2020-6-24 14:08
是练习使用代理ip 做爬虫吗   你确保你的代理ip 没有失效吗

不确定..就网站上搜到的

Twilight6 发表于 2020-6-24 14:12:05


I\P 也有问题 网站也有问题,你网站换一个吧我刚刚直接访问你的网站都无法访问的

测试了下 也测试了下 I\P 失效了确实也会产生这个报错

http://httpbin.org/get

url 用这个然后 I\P 在去找一个 :https://www.xicidaili.com/nn/

wp231957 发表于 2020-6-24 14:12:10

今天的我更强了 发表于 2020-6-24 14:09
不确定..就网站上搜到的

我觉得代理ip 了解一下,知道有这么回事就行了
真想用代理ip爬取资料,最好还是要花银子 买一个用,免费的 基本都用不了

suchocolate 发表于 2020-6-24 14:14:59

代理和网站都有问题。
新人先练习基础的,httpbin.org这个网站可以练习http爬虫。


1.get
from urllib import request
from urllib import parse

headers = {'User-Agent': 'Firefox'}
req = request.Request('http://httpbin.org/get', headers=headers)
r = request.urlopen(req)
print(r.read().decode('utf-8'))



2.post
from urllib import request
from urllib import parse

headers = {'User-Agent': 'Firefox'}
data = {'name': 'haha','time': '20200624'}
b_data = bytes(parse.urlencode(data), encoding='utf-8')
req = request.Request('http://httpbin.org/post', data=b_data, headers=headers, method='POST')
r = request.urlopen(req)
print(r.read().decode('utf-8'))

Twilight6 发表于 2020-6-24 14:23:43

Twilight6 发表于 2020-6-24 14:12
I\P 也有问题 网站也有问题,你网站换一个吧我刚刚直接访问你的网站都无法访问的

测试了下 也测试了 ...


刚刚测试了下好几个网站的 IP 几乎都没法用的....

唉 运气不行,我当时上到这节课时候 第一个就可用用的哈哈哈

只能建议你去买个 IP 或者有些IP网站注册会免费让你体验的好像,你可用试试看去注册个号

建议晚上也可以在试试看,说不定就成了
页: [1]
查看完整版本: 关于爬虫隐藏