昨非 发表于 2021-3-5 23:25:39

【爬虫】初次使用xpath

        最近刚开始接触爬虫这块,要学的东西还是挺多的,好多库都要用到,包括正则,乍一看就头大
        不过还好,感觉挺好玩的,起码有点儿兴趣作支撑
        当然代码很简单,就是随(故)便(意)找了个排行榜练练手。。。
        (鱼哥好像有说过不能爬咱论坛来着{:10_245:} )
# -*- coding: utf-8 -*-
"""
Created on Wed Mar3 18:26:35 2021
    首次使用xpath
@author: 昨非
"""
import requests
from fake_useragent import UserAgent
from lxml import etree

url = "https://fishc.com.cn/misc.php?mod=ranklist&type=member&view=credit&orderby=5"

headers = {
            "User-Agent": UserAgent().chrome
            }
response = requests.get(url, headers=headers)
e = etree.HTML(response.text)


#由网页源码而定*
names = e.xpath('//div[@class="xld xlda hasrank"]/dl/dt/a/text()')
values = e.xpath('//div[@class="xld xlda hasrank"]/dl/dd/p/text()')

#print(names)
#print(values)
for name, value in zip(names, values):
    print(name, value)

yuedong 发表于 2021-3-6 01:01:20

虽然只能看懂伪装,
尝试了一下,爬到了10个名字和技术值吧
不过还有很多不知名的报错
{:5_109:}

不二如是 发表于 2021-3-6 17:50:35

加油~

昨非 发表于 2021-3-6 17:54:28

不二如是 发表于 2021-3-6 17:50
加油~

会的{:10_297:}

昨非 发表于 2021-3-6 17:56:32

yuedong 发表于 2021-3-6 01:01
虽然只能看懂伪装,
尝试了一下,爬到了10个名字和技术值吧
不过还有很多不知名的报错

?什么报错

yuedong 发表于 2021-3-6 18:28:33

昨非 发表于 2021-3-6 17:56
?什么报错

奇怪,没有报错了{:5_109:}刚刚试了一下

qiuyouzhi 发表于 2021-3-7 14:10:16

爬论坛是可以的,只不过频率不要太高就好

昨非 发表于 2021-3-7 14:13:31

qiuyouzhi 发表于 2021-3-7 14:10
爬论坛是可以的,只不过频率不要太高就好

我这小打小闹,不想有些大佬动不动几万几十万条数据来分析{:10_250:}

小伤口 发表于 2021-3-7 15:06:17

强烈支持{:10_254:}

crisfo 发表于 2021-3-7 17:38:13

厉害,厉害{:5_106:}
页: [1]
查看完整版本: 【爬虫】初次使用xpath