鱼C论坛

 找回密码
 立即注册
查看: 3081|回复: 12

[已解决]python爬虫

[复制链接]
发表于 2020-9-17 15:54:05 | 显示全部楼层 |阅读模式
10鱼币

                               
登录/注册后可看大图

我想爬取每篇文章的链接,但是每次刷新页面链接都会跟着变要怎么处理
最佳答案
2020-9-17 15:54:06
天边一抹灬红 发表于 2020-9-18 09:16
我提取到链接了就是不知道怎么解码

https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的,因为是19年的不知道还是否有效,我也还没来得及试,可以看看学个思路

最佳答案

查看完整内容

https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的,因为是19年的不知道还是否有效,我也还没来得及试,可以看看学个思路
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-17 15:54:06 | 显示全部楼层    本楼为最佳答案   
天边一抹灬红 发表于 2020-9-18 09:16
我提取到链接了就是不知道怎么解码

https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的,因为是19年的不知道还是否有效,我也还没来得及试,可以看看学个思路
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-17 15:54:38 | 显示全部楼层
这个是地址https://weixin.sogou.com/weixin?query=%E4%BC%81%E4%B8%9A%E6%96%87%E5%8C%96&_sug_type_=&s_from=input&_sug_=n&type=2&page=1&ie=utf8
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-18 07:18:17 | 显示全部楼层
刚刚看了一下,链接都是放在h3里的a标签里,用正则表达式或者xpaht提取一下内容就是文章链接了,不过得解码才能得到真正的URL
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-18 09:16:42 | 显示全部楼层
2483967924 发表于 2020-9-18 07:18
刚刚看了一下,链接都是放在h3里的a标签里,用正则表达式或者xpaht提取一下内容就是文章链接了,不过得解码 ...

我提取到链接了就是不知道怎么解码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-18 20:06:00 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-19 00:44:26 | 显示全部楼层
路过
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-19 09:48:33 | 显示全部楼层
2483967924 发表于 2020-9-18 17:34
https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的,因为是19年的不 ...

页面404了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-22 12:18:08 | 显示全部楼层
import requests_html
import time

session = requests_html.HTMLSession()

res = session.get('https://weixin.sogou.com/weixin?query=华为'+input('关键字:')+'&type=2&page=3')



for url in res:
    r = res.html.xpath('//*[@id="sogou_vr_11002601_title_0"]/@href')

    p = 'https://weixin.sogou.com'+''.join(r)

    print(p)



我这边情况有些多变,不知道你和我的一不一样,随便写了一下(我F12出来的URL一会是完整的,一会不完整,有时直接拼接还能打开?!!)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

头像被屏蔽
发表于 2020-9-23 11:53:22 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

头像被屏蔽
发表于 2020-9-23 12:14:40 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

头像被屏蔽
发表于 2020-9-25 10:29:17 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-25 11:58:26 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 23:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表