【爬虫】初次使用xpath

昨非 · 发表于 2021-3-5 23:25:39

您需要登录才可以下载或查看，没有账号？立即注册

x

最近刚开始接触爬虫这块，要学的东西还是挺多的，好多库都要用到，包括正则，乍一看就头大
不过还好，感觉挺好玩的，起码有点儿兴趣作支撑
当然代码很简单，就是随（故）便（意）找了个排行榜练练手。。。
（鱼哥好像有说过不能爬咱论坛来着

）

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 3 18:26:35 2021
首次使用xpath
@author: 昨非
"""
import requests
from fake_useragent import UserAgent
from lxml import etree
url = "https://fishc.com.cn/misc.php?mod=ranklist&type=member&view=credit&orderby=5"
headers = {
"User-Agent": UserAgent().chrome
}
response = requests.get(url, headers=headers)
e = etree.HTML(response.text)
#由网页源码而定*
names = e.xpath('//div[@class="xld xlda hasrank"]/dl/dt/a/text()')
values = e.xpath('//div[@class="xld xlda hasrank"]/dl/dd[3]/p/text()')
#print(names)
#print(values)
for name, value in zip(names, values):
print(name, value)

复制代码

yuedong · 发表于 2021-3-6 01:01:20

虽然只能看懂伪装，
尝试了一下，爬到了10个名字和技术值吧
不过还有很多不知名的报错

不二如是 · 发表于 2021-3-6 17:50:35

加油～

昨非 · 发表于 2021-3-6 17:54:28

不二如是发表于 2021-3-6 17:50
加油～

会的

昨非 · 发表于 2021-3-6 17:56:32

yuedong 发表于 2021-3-6 01:01
虽然只能看懂伪装，
尝试了一下，爬到了10个名字和技术值吧
不过还有很多不知名的报错

？什么报错

yuedong · 发表于 2021-3-6 18:28:33

昨非发表于 2021-3-6 17:56
？什么报错

奇怪，没有报错了

刚刚试了一下

qiuyouzhi · 发表于 2021-3-7 14:10:16

爬论坛是可以的，只不过频率不要太高就好

昨非 · 发表于 2021-3-7 14:13:31

qiuyouzhi 发表于 2021-3-7 14:10
爬论坛是可以的，只不过频率不要太高就好

我这小打小闹，不想有些大佬动不动几万几十万条数据来分析

小伤口 · 发表于 2021-3-7 15:06:17

强烈支持

crisfo · 发表于 2021-3-7 17:38:13

厉害，厉害

账号		自动登录	找回密码
密码			立即注册

[技术交流] 【爬虫】初次使用xpath