如何解决爬取HTTPS网页图片问题

ff174422523 · 发表于 2018-3-7 23:57:06

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

按小甲鱼老师的视频“正则表达式4”的视频中展示，爬取百度贴吧某的图片代码为

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p,html)
for each in imglist:
print(each)
'''
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
'''
if __name__ == '__main__':
url = "http://tieba.baidu.com/p/3563409202"
get_img(open_url(url))

复制代码

但现在我在爬取的时候报错内容如下
urllib.error.URLError: <urlopen error [SSL: UNKNOWN_PROTOCOL] unknown protocol (_ssl.c:777)>
请问该问题如何解决，我查看了视频爬取的图片连接为http,而现在我爬取的连接为https 请问该问题要如何解决？谢谢。

塔利班 · 发表于 2018-3-8 00:03:25

可以运行啊

alltolove · 发表于 2018-3-8 08:21:13

别用urllib.request这个，用request模块里get方法就行

ff174422523 · 发表于 2018-3-11 22:13:57

alltolove 发表于 2018-3-8 08:21
别用urllib.request这个，用request模块里get方法就行

你好，，我是小白，，能麻烦上一下代码吗？谢谢啦

alltolove · 发表于 2018-3-12 08:21:44

import requests
import re
def open_url(url):
req = requests.get(url)
return req.text
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p,html)
for each in imglist:
print(each)
if __name__ == '__main__':
url = "https://tieba.baidu.com/p/3563409202"
get_img(open_url(url))

复制代码

就是改一下你的获取网站的函数就行了。要用这个需要安装先requests这个模块

小a君 · 发表于 2018-12-14 00:09:55

alltolove 发表于 2018-3-12 08:21
就是改一下你的获取网站的函数就行了。要用这个需要安装先requests这个模块

大佬，这个代码是换下网址就行了嘛？user-agent不要写吗。同小白您的代码我运行几次既没有报错有没有爬出来

账号		自动登录	找回密码
密码			立即注册