urlopen error no host given怎么办

幽梦三影 · 发表于 2018-6-29 15:09:41

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
import chardet

def get_html(url):
html = urllib.request.urlopen(url).read()
x = chardet.detect(html)['encoding']
html = html.decode(x)
return html

url = 'https://fishc.taobao.com'
html = get_html(url)
img_address = re.findall(r'<img src="([^"]+)"', html)[1]

print(img_address)

x = get_html('http://' + img_address)
'''

for i in img_address:
x = 1
urllib.request.urlretrieve('http://' + i, '%d.jpg'%x)
x += 1

'''

凌九霄 · 发表于 2018-6-29 15:16:33

除了第三方的requests模块，其他的urllib之类使用上完全是反人类设计

Charles未晞 · 发表于 2018-6-29 15:17:14

你正则表达式匹配到的数据是类似这样的：

//img.alicdn.com/bao/uploaded/i3/91760992/TB2fN5cdbBmpuFjSZFAXXaQ0pXa_!!91760992.png_120x120.jpg

复制代码

所以你第二次调用get_html函数传入的实参应该是这样的：

x = get_html('http:' + img_address)

复制代码

15623772119 · 发表于 2019-10-24 22:26:31

我也遇到这个问题了。。。

塔利班 · 发表于 2019-10-24 22:38:35

你这只到资源，写了个协议，没有主机

XiaoPaiShen · 发表于 2019-10-25 00:33:17

本帖最后由 XiaoPaiShen 于 2019-10-25 00:34 编辑

我用你的代码无法decode html
我就使用了自动下载设置代理

首先把【爬虫福利】自动下载设置代理中的代码保存下来，取文件名为proxypool.py

import proxypool as pool
import urllib.parse
import re
##def get_html(url):
## html = urllib.request.urlopen(url).read()
## x = chardet.detect(html)['encoding']
## html = html.decode(x)
## return html
proxy = pool.ProxyPool()
url = 'https://fishc.taobao.com'
html = proxy.read_url(url, decode='text')
# html = get_html(url)
img_address = re.findall(r'<img src="([^"]+)"', html)[1]
# print(img_address)
img_url = urllib.parse.urljoin('http:', img_address)
print(img_url)
# x = get_html('http://' + img_address)
'''
for i in img_address:
x = 1
urllib.request.urlretrieve('http://' + i, '%d.jpg'%x)
x += 1
'''

复制代码

账号		自动登录	找回密码
密码			立即注册