[已解决]贴吧爬取图片问题

zhouleiqiang · 发表于 2020-9-1 23:19:51

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

求助，最近学到贴吧爬取图片那一课，可是我运行了完全没有打印网址，请问是因为https的问题嘛，求解

。代码如下
import urllib.request
import re

def open_url(url):
   req  = urllib.request.Request(url)
   req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
   page = urllib.request.urlopen(req)
   html = page.read().decode('utf-8')

def get_img(html):
   p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
   imglist = re.findall(p,str(html))
   for each in imglist:
            print(each)

if __name__ == '__main__':
   url = "https://tieba.baidu.com/p/6579707886"
   get_img(open_url(url))

最佳答案

月排行榜 / 总排行榜

1q23w31

2020-9-2 07:27:47

zhouleiqiang 发表于 2020-9-1 23:20
运行了完全没有反应，就是空白的，也没有报错。

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
imglist = re.findall(p,str(html))
for each in imglist:
print(each)
if __name__ == '__main__':
url = "https://tieba.baidu.com/p/6579707886"
get_img(open_url(url))

复制代码

代码第十行，没有return返回值

跳转到最佳答案楼层

zhouleiqiang · 发表于 2020-9-1 23:20:35

运行了完全没有反应，就是空白的，也没有报错。

zhouleiqiang · 发表于 2020-9-1 23:23:57

有人吗，有人吗，小白求助

1q23w31 · 发表于 2020-9-2 07:27:47

这个最佳答案由 1q23w31 给出，感谢 1q23w31 的回答。

单击隐藏图章

zhouleiqiang 发表于 2020-9-1 23:20
运行了完全没有反应，就是空白的，也没有报错。

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
imglist = re.findall(p,str(html))
for each in imglist:
print(each)
if __name__ == '__main__':
url = "https://tieba.baidu.com/p/6579707886"
get_img(open_url(url))

复制代码

代码第十行，没有return返回值

zhouleiqiang · 发表于 2020-9-2 09:37:10

本帖最后由 zhouleiqiang 于 2020-9-2 09:41 编辑

1q23w31 发表于 2020-9-2 07:27
代码第十行，没有return返回值

谢谢啊，好像是我自己没写这行

账号		自动登录	找回密码
密码			立即注册

[已解决]贴吧爬取图片问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块