贴吧爬取图片问题
求助,最近学到贴吧爬取图片那一课,可是我运行了完全没有打印网址,请问是因为https的问题嘛,求解{:5_104:} 。代码如下import urllib.request
import re
def open_url(url):
req= urllib.request.Request(url)
req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
def get_img(html):
p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
imglist = re.findall(p,str(html))
for each in imglist:
print(each)
if __name__ == '__main__':
url = "https://tieba.baidu.com/p/6579707886"
get_img(open_url(url)) 运行了完全没有反应,就是空白的,也没有报错。 有人吗,有人吗,小白求助
zhouleiqiang 发表于 2020-9-1 23:20
运行了完全没有反应,就是空白的,也没有报错。
import urllib.request
import re
def open_url(url):
req= urllib.request.Request(url)
req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
imglist = re.findall(p,str(html))
for each in imglist:
print(each)
if __name__ == '__main__':
url = "https://tieba.baidu.com/p/6579707886"
get_img(open_url(url))
代码第十行,没有return返回值 本帖最后由 zhouleiqiang 于 2020-9-2 09:41 编辑
1q23w31 发表于 2020-9-2 07:27
代码第十行,没有return返回值
谢谢啊,好像是我自己没写这行{:5_104:}
页:
[1]