鱼C论坛

 找回密码
 立即注册
查看: 1004|回复: 2

[已解决]爬虫Xpath找不到需要的内容

[复制链接]
发表于 2020-8-8 19:35:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 937135952 于 2020-8-8 21:05 编辑

代码如下:
import requests  
from lxml import etree

URL = 'https://detail.tmall.com/item.htm?id=535615570326&ali_refid=a3_430583_1006:1103173608:N:KL4ZvK2m2Tluz5hpScL2Nlpq6p3PilKB:8130b72256b467ef21720d7f0468702d&ali_trackid=1_8130b72256b467ef21720d7f0468702d&spm=a230r.1.14.3'

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language':'en-US,en;q=0.5',
'Accept-Encoding':'gzip',
'DNT':'1',
'Connection':'close'
}


def send_email():
    pass

def track_price_and_send_email():
    url ="https://detail.tmall.com/item.htm?spm=a230r.1.14.19.50787c75JKqT95&id=558128868438&ns=1&abbucket=6"
      
    r = requests.get(url, headers=headers)
    r.encoding = 'gbk'
    html = etree.HTML(r.text)
    title = html.xpath('//div[contains(@class,"tb-detail-hd")]/h1/text()')

    print(title)
    price = html.xpath('//span[contains(@class,"tm-price")]/text()')
    print(price)
   


爬取价格的时候爬不到东西,我试了很多种比如改成'//div[contains(@class,"tm-promo-price")]/text()')也找不到,不知道是不是我的语法有错,希望大佬指点指点
我用beautiful把他打出来看了一下,价格那一块数据消失了...不知道这是什么原因

最佳答案
2020-8-9 06:56:07
本帖最后由 1q23w31 于 2020-8-9 08:09 编辑

网页生成受到js控制,关闭js后网页如图


                               
登录/注册后可看大图


2020-8-9 6-52-38.png

只请求网页 故得不出价格建议selenium动态爬取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 06:56:07 | 显示全部楼层    本楼为最佳答案   
本帖最后由 1q23w31 于 2020-8-9 08:09 编辑

网页生成受到js控制,关闭js后网页如图


                               
登录/注册后可看大图


2020-8-9 6-52-38.png

只请求网页 故得不出价格建议selenium动态爬取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-10 20:49:42 | 显示全部楼层
@zltzlt
老哥麻烦了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-19 11:19

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表