[已解决]爬虫地址问题

chenjianqiang · 发表于 2017-12-13 23:06:43

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我按书本的爬虫代码怎么一直匹配不到正确的图片的地址，全是空的，刚才问的一封有人说加密了，我换了好多的网站都不行，是不是这个方法现在要加什么处理？

最佳答案

月排行榜 / 总排行榜

°蓝鲤歌蓝

2017-12-14 00:26:52

chenjianqiang 发表于 2017-12-13 23:31
没错，抄的书上的代码

p=r'<img class="BDE_Image" src="([^"]*\.jpg)"'

复制代码

正则换成这样你试试，我试了一下可以爬取

跳转到最佳答案楼层

°蓝鲤歌蓝 · 发表于 2017-12-13 23:10:05

贴一下代码

chenjianqiang · 发表于 2017-12-13 23:17:01

°蓝鲤歌蓝发表于 2017-12-13 23:10
贴一下代码

import urllib.request
import os
import re

def url_open(url):
req = urllib.request.Request(url)
req.add_header('user-agent',
               'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')

return html

def get_img(html):
p=r'<img class="BDE_Image".*?src=([^"]*\.jpg)".*?>'
imglist=re.findall(p,html)
os.mkdir('newpics')
os.chdir('newpics')
for each in imglist:
      filename=each.split('/')[-1]
      urllib.request.urlretrieve(each,filename,None)

if __name__=='__main__':
url='https://tieba.baidu.com/p/3823765471'
get_img(url_open(url))
我把网址都换了好多次了，每一次能抓到地址的，print那个imglist是空的

°蓝鲤歌蓝 · 发表于 2017-12-13 23:26:41

chenjianqiang 发表于 2017-12-13 23:17
import urllib.request
import os
import re

没有报错，只是抓取不到图片地址是吧？
我电脑重启升级了不能调试，我之前爬取百度贴吧也遇到过你这样的问题。

chenjianqiang · 发表于 2017-12-13 23:28:31

°蓝鲤歌蓝发表于 2017-12-13 23:26
没有报错，只是抓取不到图片地址是吧？
我电脑重启升级了不能调试，我之前爬取百度贴吧也遇到过你这样的 ...

是的，您到时有空帮我试试，一直很纳闷，为什么换了好多的网址都是匹配不到图片的地址。要是加密的话，应该不会这么多的网站都加密。

°蓝鲤歌蓝 · 发表于 2017-12-13 23:29:34

chenjianqiang 发表于 2017-12-13 23:28
是的，您到时有空帮我试试，一直很纳闷，为什么换了好多的网址都是匹配不到图片的地址。要是加密的话，应 ...

百度贴吧应该没有加密的，可能是你的正则表达式的问题，我那一次是正则的问题。

chenjianqiang · 发表于 2017-12-13 23:31:56

°蓝鲤歌蓝发表于 2017-12-13 23:29
百度贴吧应该没有加密的，可能是你的正则表达式的问题，我那一次是正则的问题。

没错，抄的书上的代码

chenjianqiang · 发表于 2017-12-13 23:37:17

我发现了我print html根本没有要匹配的地址，请问下是什么导致的这样的问题

°蓝鲤歌蓝 · 发表于 2017-12-14 00:26:52

chenjianqiang 发表于 2017-12-13 23:31
没错，抄的书上的代码

p=r'<img class="BDE_Image" src="([^"]*\.jpg)"'

复制代码

正则换成这样你试试，我试了一下可以爬取

chenjianqiang · 发表于 2017-12-14 09:46:25

°蓝鲤歌蓝发表于 2017-12-14 00:26
正则换成这样你试试，我试了一下可以爬取

可以了，确实是这个问题

账号		自动登录	找回密码
密码			立即注册