【爬虫】初次使用xpath
最近刚开始接触爬虫这块,要学的东西还是挺多的,好多库都要用到,包括正则,乍一看就头大不过还好,感觉挺好玩的,起码有点儿兴趣作支撑
当然代码很简单,就是随(故)便(意)找了个排行榜练练手。。。
(鱼哥好像有说过不能爬咱论坛来着{:10_245:} )
# -*- coding: utf-8 -*-
"""
Created on Wed Mar3 18:26:35 2021
首次使用xpath
@author: 昨非
"""
import requests
from fake_useragent import UserAgent
from lxml import etree
url = "https://fishc.com.cn/misc.php?mod=ranklist&type=member&view=credit&orderby=5"
headers = {
"User-Agent": UserAgent().chrome
}
response = requests.get(url, headers=headers)
e = etree.HTML(response.text)
#由网页源码而定*
names = e.xpath('//div[@class="xld xlda hasrank"]/dl/dt/a/text()')
values = e.xpath('//div[@class="xld xlda hasrank"]/dl/dd/p/text()')
#print(names)
#print(values)
for name, value in zip(names, values):
print(name, value)
虽然只能看懂伪装,
尝试了一下,爬到了10个名字和技术值吧
不过还有很多不知名的报错
{:5_109:} 加油~ 不二如是 发表于 2021-3-6 17:50
加油~
会的{:10_297:} yuedong 发表于 2021-3-6 01:01
虽然只能看懂伪装,
尝试了一下,爬到了10个名字和技术值吧
不过还有很多不知名的报错
?什么报错 昨非 发表于 2021-3-6 17:56
?什么报错
奇怪,没有报错了{:5_109:}刚刚试了一下 爬论坛是可以的,只不过频率不要太高就好 qiuyouzhi 发表于 2021-3-7 14:10
爬论坛是可以的,只不过频率不要太高就好
我这小打小闹,不想有些大佬动不动几万几十万条数据来分析{:10_250:} 强烈支持{:10_254:} 厉害,厉害{:5_106:}
页:
[1]