【爬虫】初次使用xpath,Python交流,编程语言专区,鱼C论坛

昨非发表于 2021-3-5 23:25:39

【爬虫】初次使用xpath

最近刚开始接触爬虫这块，要学的东西还是挺多的，好多库都要用到，包括正则，乍一看就头大
不过还好，感觉挺好玩的，起码有点儿兴趣作支撑
当然代码很简单，就是随（故）便（意）找了个排行榜练练手。。。
（鱼哥好像有说过不能爬咱论坛来着{:10_245:} ）
# -*- coding: utf-8 -*-
"""
Created on Wed Mar3 18:26:35 2021
首次使用xpath
@author: 昨非
"""
import requests
from fake_useragent import UserAgent
from lxml import etree

url = "https://fishc.com.cn/misc.php?mod=ranklist&type=member&view=credit&orderby=5"

headers = {
"User-Agent": UserAgent().chrome
}
response = requests.get(url, headers=headers)
e = etree.HTML(response.text)

#由网页源码而定*
names = e.xpath('//div[@class="xld xlda hasrank"]/dl/dt/a/text()')
values = e.xpath('//div[@class="xld xlda hasrank"]/dl/dd/p/text()')

#print(names)
#print(values)
for name, value in zip(names, values):
print(name, value)

yuedong 发表于 2021-3-6 01:01:20

虽然只能看懂伪装，
尝试了一下，爬到了10个名字和技术值吧
不过还有很多不知名的报错
{:5_109:}

不二如是 发表于 2021-3-6 17:50:35

加油～

昨非发表于 2021-3-6 17:54:28

不二如是发表于 2021-3-6 17:50
加油～

会的{:10_297:}

昨非发表于 2021-3-6 17:56:32

yuedong 发表于 2021-3-6 01:01
虽然只能看懂伪装，
尝试了一下，爬到了10个名字和技术值吧
不过还有很多不知名的报错

？什么报错

yuedong 发表于 2021-3-6 18:28:33

昨非发表于 2021-3-6 17:56
？什么报错

奇怪，没有报错了{:5_109:}刚刚试了一下

qiuyouzhi 发表于 2021-3-7 14:10:16

爬论坛是可以的，只不过频率不要太高就好

昨非发表于 2021-3-7 14:13:31

qiuyouzhi 发表于 2021-3-7 14:10
爬论坛是可以的，只不过频率不要太高就好

我这小打小闹，不想有些大佬动不动几万几十万条数据来分析{:10_250:}

小伤口 发表于 2021-3-7 15:06:17

强烈支持{:10_254:}

crisfo 发表于 2021-3-7 17:38:13

厉害，厉害{:5_106:}

页: [1]

鱼C论坛's Archiver

【爬虫】初次使用xpath