[已解决]python爬虫

2483967924 · 发表于 2020-9-17 15:54:06

这个最佳答案由 2483967924 给出，感谢 2483967924 的回答。

单击隐藏图章

天边一抹灬红发表于 2020-9-18 09:16
我提取到链接了就是不知道怎么解码

https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的，因为是19年的不知道还是否有效，我也还没来得及试，可以看看学个思路

2483967924 · 发表于 2020-9-18 07:18:17

刚刚看了一下，链接都是放在h3里的a标签里，用正则表达式或者xpaht提取一下内容就是文章链接了，不过得解码才能得到真正的URL

2483967924 · 发表于 2020-9-22 12:18:08

import requests_html
import time

session = requests_html.HTMLSession()

res = session.get('https://weixin.sogou.com/weixin?query=华为'+input('关键字：')+'&type=2&page=3')

for url in res:
r = res.html.xpath('//*[@id="sogou_vr_11002601_title_0"]/@href')

p = 'https://weixin.sogou.com'+''.join(r)

print(p)

我这边情况有些多变，不知道你和我的一不一样，随便写了一下（我F12出来的URL一会是完整的，一会不完整，有时直接拼接还能打开？！！）

账号		自动登录	找回密码
密码			立即注册

[已解决]python爬虫

浏览过的版块