自己研究了一晚上xpath,根本打印不出东西来,实在是受不了了
大家帮我看看print(s)打印出来的是什么东西啊,研究一晚上没搞懂import requests
from lxml import etree
url = 'http://www.made-in-china.com/'
html =requests.get(url)
selecter = etree.HTML(html.text)
s = selecter.xpath('//ul/li')
print(s)
[<Element li at 0x2baca9a17c0>, <Element li at 0x2baca9a1180>, <Element li at 0x2bacc9a0b00>, <Element li at 0x2bacc9af9c0>, <Element li at 0x2bacc9afb40>, 这些都是地址 你这个爬的这个网页源代码可读性太差了。。。看代码的话就是打印源代码下面一个名为ul的主标签下面的li标签的内容。但网页源代码没有按层进来安排,所以我也懒得找那是个什么东西。。 import requests
from lxml import etree
url = 'http://www.made-in-china.com/'
headers = {'user-agent': 'mozilla'} # 得改header防反扒
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
lis = html.xpath('//ul/li') # 这个得到的是众多etree对象组成的列表
# etree对象不支持直接打印html,得用tostring函数
for li in lis:# 循环列表,逐个对象转成文本
pt = etree.tostring(li, encoding='unicode')
print(pt)
这不就是ul下的所有li标签吗....https://www.hualigs.cn/image/60a07fad490dd.jpg xpath的使用:https://github.com/Python3WebSpider/Python3WebSpider/blob/master/4.1-XPath%E7%9A%84%E4%BD%BF%E7%94%A8.md {:5_95:}
页:
[1]