通过分析网页上“尾页”按钮所对应的href内容来确定
批量获取每个区的页数import requests
from lxml import etree
import re
UA = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
r1 = requests.get(url='http://www.jkl.com.cn/cn/shop.aspx', headers=UA).text
html1 = etree.HTML(r1)
xlist = html1.xpath('//*[@id="form1"]/div[5]/div[1]/div/ul/li/a')
for x in xlist:
id = x.xpath('@id')[0]
name = x.xpath('text()')[0].strip()
url = 'http://www.jkl.com.cn/cn/shopLis.aspx?id=%s' % id
r2 = requests.get(url=url, headers=UA).text
html2 = etree.HTML(r2)
page = html2.xpath('//a[text()="尾页"]/@href')
if page != []:
result = re.search("(\d+)'\)", page[0])
total = result.group(1)
else:
total = 1
print('%s(%s)对应页数为:%s' % (name, url, total))
结果输出为:西城区(http://www.jkl.com.cn/cn/shopLis.aspx?id=862)对应页数为:1
朝阳区(http://www.jkl.com.cn/cn/shopLis.aspx?id=865)对应页数为:3
海淀区(http://www.jkl.com.cn/cn/shopLis.aspx?id=866)对应页数为:1
丰台区(http://www.jkl.com.cn/cn/shopLis.aspx?id=867)对应页数为:1
石景山区(http://www.jkl.com.cn/cn/shopLis.aspx?id=868)对应页数为:1
顺义区(http://www.jkl.com.cn/cn/shopLis.aspx?id=869)对应页数为:1
昌平区(http://www.jkl.com.cn/cn/shopLis.aspx?id=870)对应页数为:1
门头沟区(http://www.jkl.com.cn/cn/shopLis.aspx?id=871)对应页数为:1
大兴区(http://www.jkl.com.cn/cn/shopLis.aspx?id=873)对应页数为:1
通州区(http://www.jkl.com.cn/cn/shopLis.aspx?id=874)对应页数为:1
密云区(http://www.jkl.com.cn/cn/shopLis.aspx?id=876)对应页数为:1
怀柔区(http://www.jkl.com.cn/cn/shopLis.aspx?id=877)对应页数为:1
|