贴吧爬取图片问题,Python交流,编程语言专区,鱼C论坛

zhouleiqiang 发表于 2020-9-1 23:19:51

贴吧爬取图片问题

求助，最近学到贴吧爬取图片那一课，可是我运行了完全没有打印网址，请问是因为https的问题嘛，求解{:5_104:} 。代码如下
import urllib.request
import re

def open_url(url):
   req= urllib.request.Request(url)
   req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
   page = urllib.request.urlopen(req)
   html = page.read().decode('utf-8')

def get_img(html):
   p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
   imglist = re.findall(p,str(html))
   for each in imglist:
         print(each)

if __name__ == '__main__':
   url = "https://tieba.baidu.com/p/6579707886"
   get_img(open_url(url))

zhouleiqiang 发表于 2020-9-1 23:20:35

运行了完全没有反应，就是空白的，也没有报错。

zhouleiqiang 发表于 2020-9-1 23:23:57

有人吗，有人吗，小白求助

1q23w31 发表于 2020-9-2 07:27:47

zhouleiqiang 发表于 2020-9-1 23:20
运行了完全没有反应，就是空白的，也没有报错。

import urllib.request
import re

def open_url(url):
   req= urllib.request.Request(url)
   req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
   page = urllib.request.urlopen(req)
   html = page.read().decode('utf-8')
   return html

def get_img(html):
   p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
   imglist = re.findall(p,str(html))
   for each in imglist:
         print(each)

if __name__ == '__main__':
   url = "https://tieba.baidu.com/p/6579707886"
   get_img(open_url(url))

代码第十行，没有return返回值

zhouleiqiang 发表于 2020-9-2 09:37:10

本帖最后由 zhouleiqiang 于 2020-9-2 09:41 编辑

1q23w31 发表于 2020-9-2 07:27
代码第十行，没有return返回值

谢谢啊，好像是我自己没写这行{:5_104:}

页: [1]

鱼C论坛's Archiver

贴吧爬取图片问题