python爬虫
https://s1.ax1x.com/2020/09/17/wWlVoT.png我想爬取每篇文章的链接,但是每次刷新页面链接都会跟着变要怎么处理 天边一抹灬红 发表于 2020-9-18 09:16
我提取到链接了就是不知道怎么解码
https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的,因为是19年的不知道还是否有效,我也还没来得及试,可以看看学个思路 这个是地址https://weixin.sogou.com/weixin?query=%E4%BC%81%E4%B8%9A%E6%96%87%E5%8C%96&_sug_type_=&s_from=input&_sug_=n&type=2&page=1&ie=utf8 刚刚看了一下,链接都是放在h3里的a标签里,用正则表达式或者xpaht提取一下内容就是文章链接了,不过得解码才能得到真正的URL 2483967924 发表于 2020-9-18 07:18
刚刚看了一下,链接都是放在h3里的a标签里,用正则表达式或者xpaht提取一下内容就是文章链接了,不过得解码 ...
我提取到链接了就是不知道怎么解码{:10_262:} {:10_256:}{:10_256:} 路过 2483967924 发表于 2020-9-18 17:34
https://blog.csdn.net/qq_42636010/article/details这里写的就是针对那网址的URL解码的,因为是19年的不 ...
页面404了{:10_262:} import requests_html
import time
session = requests_html.HTMLSession()
res = session.get('https://weixin.sogou.com/weixin?query=华为'+input('关键字:')+'&type=2&page=3')
for url in res:
r = res.html.xpath('//*[@id="sogou_vr_11002601_title_0"]/@href')
p = 'https://weixin.sogou.com'+''.join(r)
print(p)
我这边情况有些多变,不知道你和我的一不一样,随便写了一下(我F12出来的URL一会是完整的,一会不完整,有时直接拼接还能打开?!!) {:10_277:}
页:
[1]