937135952 发表于 2020-8-8 19:35:41

爬虫Xpath找不到需要的内容

本帖最后由 937135952 于 2020-8-8 21:05 编辑

代码如下:
import requests
from lxml import etree

URL = 'https://detail.tmall.com/item.htm?id=535615570326&ali_refid=a3_430583_1006:1103173608:N:KL4ZvK2m2Tluz5hpScL2Nlpq6p3PilKB:8130b72256b467ef21720d7f0468702d&ali_trackid=1_8130b72256b467ef21720d7f0468702d&spm=a230r.1.14.3'

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language':'en-US,en;q=0.5',
'Accept-Encoding':'gzip',
'DNT':'1',
'Connection':'close'
}


def send_email():
    pass

def track_price_and_send_email():
    url ="https://detail.tmall.com/item.htm?spm=a230r.1.14.19.50787c75JKqT95&id=558128868438&ns=1&abbucket=6"
      
    r = requests.get(url, headers=headers)
    r.encoding = 'gbk'
    html = etree.HTML(r.text)
    title = html.xpath('//div/h1/text()')

    print(title)
    price = html.xpath('//span/text()')
    print(price)
   


爬取价格的时候爬不到东西,我试了很多种比如改成'//div/text()')也找不到,不知道是不是我的语法有错,希望大佬指点指点
我用beautiful把他打出来看了一下,价格那一块数据消失了...不知道这是什么原因

1q23w31 发表于 2020-8-9 06:56:07

本帖最后由 1q23w31 于 2020-8-9 08:09 编辑

网页生成受到js控制,关闭js后网页如图

static/image/hrline/line6.png



只请求网页 故得不出价格,建议selenium动态爬取

1q23w31 发表于 2020-8-10 20:49:42

@zltzlt
老哥麻烦了
页: [1]
查看完整版本: 爬虫Xpath找不到需要的内容