求助爬虫

陈临歆 · 发表于 2018-10-22 00:02:01

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
import os

def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
return html

def get_img(html):
p=r'<img class="BDE_Image" src=("[^"]+\.jpg)"'
imglist=re.findall(p,html)
try:
      os.mkdir("NewPics")
except FileExistsError:
      #如果该文件夹已存在则覆盖保存
      pass
os.chdir("NewPics")

for each in imglist:
      filename=each.split("/")[-1]
      urllib.request.urlretrieve(each,filename,None)

if __name__=='__main__':
url="https://tieba.baidu.com/p/5918868886"
get_img(open_url(url))

为什么不报错，文件夹也能创建可就是没有图片，代码都是按照小甲鱼书上敲的，可是就是出不来

塔利班 · 发表于 2018-10-22 09:01:58

不报错是因为你正则首先就没写对，其次网页源码和你审查元素渲染后的代码不一样

wongyusing · 发表于 2018-10-22 16:56:40

你正则没写对，如果你单单是抓图片的话，写对正则就好了。
文字相对比较麻烦。
测试过，可以从html源代码中获取图片链接。
百度贴吧，属于静态网站吧
图片比其他网站好取多了。

账号		自动登录	找回密码
密码			立即注册

求助爬虫

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块