爬糗事百科又出问题了，这个xpath该怎么写呢

小鱼米 · 发表于 2018-7-30 18:41:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由小鱼米于 2018-7-30 19:23 编辑

手写的xpath，换了几种思路都只能得到空列表image_list

思路1：
//div[@class="mala-text"]/div[position()=2]//img/@src

思路2：
//div[@class="mala-text"]/div[2]//img/@src

思路3：
//div[@class="mala-text"]/div[contains(@style,'center')]//img/@src

大神帮忙看看~

微信截图_20180730183441.png

代码：

import os

from lxml import etree

import requests

class Qsbk(object):

def __init__(self):

      self.url = 'http://www.qiubaichengren.net/1.html'
      self.headers = {

         'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
         'Referer':'http://www.qiubaichengren.net/'
               }
      self.next_url = 'http://www.qiubaichengren.net/{}.html'
      self.offset = 2

def get_data(self,url):

      response = requests.get(url,headers = self.headers)

      return response.content

def parse_data(self,data):

      html = etree.HTML(data)
      image_list = html.xpath('//div[@class="mala-text"]/div[position()=2]/a/img/@src')
      print(image_list)
      return image_list

def downloader(self,image_list):

      if not os.path.exists('images'):
         os.mkdir('images')

      for url in image_list:
         data = self.get_data(url)
         filename = 'images' + os.sep + url.split('/')[-1]
         with open(filename, 'wb')as f:
            f.write(data)

def run(self):

      # 发送请求,接收响应
      url = self.url.format(self.offset)
      while True:
         data = self.get_data(url)
         image_list = self.parse_data(data)
         self.downloader(image_list)
         url = self.next_url.format(self.offset)
         if image_list == []:
            break
         else:
            self.offset += 1

if __name__ == '__main__':

qsbk = Qsbk()
qsbk.run()

无符号整形 · 发表于 2018-7-30 21:01:48

所以你不是匹配成功了嘛。

小鱼米 · 发表于 2018-7-30 21:09:52

无符号整形发表于 2018-7-30 21:01
所以你不是匹配成功了嘛。

对，但是得到的image_list是个空列表，不知道为啥。。

无符号整形 · 发表于 2018-7-30 21:11:29

小鱼米发表于 2018-7-30 21:09
对，但是得到的image_list是个空列表，不知道为啥。。

可能xpath的用法错了，或者是网页是用js动态加载的。

小鱼米 · 发表于 2018-7-30 21:36:16

无符号整形发表于 2018-7-30 21:11
可能xpath的用法错了，或者是网页是用js动态加载的。

应该没用到动态加载，我数据也不在js里，可能还是xpath写的有问题

mongoole · 发表于 2018-7-31 15:27:02

1.xpath写法

'//p/span//img/@src'

复制代码

2.正则写法

pattern = re.compile('<img alt=.*? src="(.*?)".*? />', re.S)
items = re.findall(pattern, html)

复制代码

账号		自动登录	找回密码
密码			立即注册

爬糗事百科又出问题了，这个xpath该怎么写呢

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块