lizhiyong_11 发表于 2021-5-15 22:24:18

自己研究了一晚上xpath,根本打印不出东西来,实在是受不了了

大家帮我看看print(s)打印出来的是什么东西啊,研究一晚上没搞懂

import requests
from lxml import etree

url = 'http://www.made-in-china.com/'
html =requests.get(url)
selecter = etree.HTML(html.text)
s = selecter.xpath('//ul/li')
print(s)


[<Element li at 0x2baca9a17c0>, <Element li at 0x2baca9a1180>, <Element li at 0x2bacc9a0b00>, <Element li at 0x2bacc9af9c0>, <Element li at 0x2bacc9afb40>,

wp231957 发表于 2021-5-16 06:44:56

这些都是地址

Hoiste 发表于 2021-5-16 10:07:43

你这个爬的这个网页源代码可读性太差了。。。看代码的话就是打印源代码下面一个名为ul的主标签下面的li标签的内容。但网页源代码没有按层进来安排,所以我也懒得找那是个什么东西。。

suchocolate 发表于 2021-5-16 10:12:03

import requests
from lxml import etree

url = 'http://www.made-in-china.com/'
headers = {'user-agent': 'mozilla'}   # 得改header防反扒
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
lis = html.xpath('//ul/li')   # 这个得到的是众多etree对象组成的列表
# etree对象不支持直接打印html,得用tostring函数
for li in lis:# 循环列表,逐个对象转成文本
    pt = etree.tostring(li, encoding='unicode')
    print(pt)

南归 发表于 2021-5-16 10:13:31

这不就是ul下的所有li标签吗....https://www.hualigs.cn/image/60a07fad490dd.jpg

suchocolate 发表于 2021-5-16 10:13:50

xpath的使用:https://github.com/Python3WebSpider/Python3WebSpider/blob/master/4.1-XPath%E7%9A%84%E4%BD%BF%E7%94%A8.md

龙舞九天 发表于 2021-5-18 07:11:10

{:5_95:}
页: [1]
查看完整版本: 自己研究了一晚上xpath,根本打印不出东西来,实在是受不了了