zhouleiqiang 发表于 2020-9-1 23:19:51

贴吧爬取图片问题

求助,最近学到贴吧爬取图片那一课,可是我运行了完全没有打印网址,请问是因为https的问题嘛,求解{:5_104:} 。代码如下
import urllib.request
import re


def open_url(url):
       req= urllib.request.Request(url)
       req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
       page = urllib.request.urlopen(req)
       html = page.read().decode('utf-8')


def get_img(html):
       p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
       imglist = re.findall(p,str(html))
       for each in imglist:
            print(each)


if __name__ == '__main__':
       url = "https://tieba.baidu.com/p/6579707886"
       get_img(open_url(url))

zhouleiqiang 发表于 2020-9-1 23:20:35

运行了完全没有反应,就是空白的,也没有报错。

zhouleiqiang 发表于 2020-9-1 23:23:57

有人吗,有人吗,小白求助

1q23w31 发表于 2020-9-2 07:27:47

zhouleiqiang 发表于 2020-9-1 23:20
运行了完全没有反应,就是空白的,也没有报错。

import urllib.request
import re


def open_url(url):
       req= urllib.request.Request(url)
       req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
       page = urllib.request.urlopen(req)
       html = page.read().decode('utf-8')
       return html


def get_img(html):
       p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
       imglist = re.findall(p,str(html))
       for each in imglist:
            print(each)


if __name__ == '__main__':
       url = "https://tieba.baidu.com/p/6579707886"
       get_img(open_url(url))

代码第十行,没有return返回值

zhouleiqiang 发表于 2020-9-2 09:37:10

本帖最后由 zhouleiqiang 于 2020-9-2 09:41 编辑

1q23w31 发表于 2020-9-2 07:27
代码第十行,没有return返回值

谢谢啊,好像是我自己没写这行{:5_104:}
页: [1]
查看完整版本: 贴吧爬取图片问题