[已解决]python爬虫爬取贴吧图

德坤python · 发表于 2016-7-18 20:35:11

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

跟着视频一步步敲代码的，也没有提示错误。就是无法打印，怀疑是正则的问题，但是和老师的对比了好几遍，还是找不到错误点在哪
谢谢大家了

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 ')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return url
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p,html)
for each in imglist:
filename = each.split("/")[-1]
urllib.request.urlretrieve(each,filename,None)
if __name__ == '__main__':
url = "http://tieba.baidu.com/p/3563409202"
get_img(open_url(url))

复制代码

最佳答案

月排行榜 / 总排行榜

小火木

2016-7-19 21:37:56

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 ')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html #这里返回值错了
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p,html)
n=0
for each in imglist:
n+=1
filename ='美女'+str(n)+'.jpg' #这里的是图片的名称
# filename = each.split("/")[-1]
local=r'E:\py\file\贴吧' #这是你想保存的位置
urllib.request.urlretrieve(each,local+'\\'+filename) ##这个函数filename参数（第二个参数）是完整的路径，而不是图片的名称
if __name__ == '__main__':
url = "http://tieba.baidu.com/p/3563409202"
get_img(open_url(url))

复制代码

跳转到最佳答案楼层

shuofxz · 发表于 2016-7-18 21:02:13

这个视频出了也有很长时间了，贴吧网页的源代码可能已经改变，所以用原来的程序就不能正常执行了
你可以通过单步调试，查找一下到底是那步出现了问题，还有你打印一下正则匹配完成后的网址，看是不是图片的地址。

下面是我之前写的一个爬贴吧图片的代码，比较简单，你也可以参考一下
http://bbs.fishc.com/thread-68903-1-1.html

德坤python · 发表于 2016-7-19 15:15:19

shuofxz 发表于 2016-7-18 21:02
这个视频出了也有很长时间了，贴吧网页的源代码可能已经改变，所以用原来的程序就不能正常执行了
你可以通 ...

我起初也以为是这个问题，后来将视频暂停与现在贴吧的源码格式进行对比。然而源码格式并没有变化，
不过还是谢谢你了

litang1017 · 发表于 2016-7-19 16:45:52

小火木 · 发表于 2016-7-19 20:43:18

本帖最后由小火木于 2016-7-19 21:04 编辑

小火木 · 发表于 2016-7-19 21:37:56

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 ')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html #这里返回值错了
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p,html)
n=0
for each in imglist:
n+=1
filename ='美女'+str(n)+'.jpg' #这里的是图片的名称
# filename = each.split("/")[-1]
local=r'E:\py\file\贴吧' #这是你想保存的位置
urllib.request.urlretrieve(each,local+'\\'+filename) ##这个函数filename参数（第二个参数）是完整的路径，而不是图片的名称
if __name__ == '__main__':
url = "http://tieba.baidu.com/p/3563409202"
get_img(open_url(url))

复制代码

williamH · 发表于 2018-4-5 14:21:01

正则表达式是空的。。。

williamH · 发表于 2018-4-5 14:31:16

感觉都是错在正则表达式那里，就可以试一下在imglist 下面加一条print（imglist）会发现列表为空，但真不知道怎么改，希望有大佬可以告知，谢谢//

账号		自动登录	找回密码
密码			立即注册