请问爬虫过程中,爬取内容的第一页和后面其他页的url有些许不同,该怎么设置统一的url
在学习爬取一个免费简历模块的网页,第一页的url=https://sc.chinaz.com/jianli/free.html第二页的url=https://sc.chinaz.com/jianli/free_2.html 第三页的URL=https://sc.chinaz.com/jianli/free_3.html 后面以此类推
我目前不会做URL的整体组合,感觉差一点知识点,只会做 具有一致性的表达,类似https://sc.chinaz.com/jianli/free_n.html (n随数字一起变动的那种)
请求大神能够帮忙指导下。非常感谢 for i in range(2,684):
url = "https://sc.chinaz.com/jianli/free_{}.html".format(i) 咋整第一页都是独立的 彩虹七号 发表于 2020-12-16 08:54
for i in range(2,684):
url = "https://sc.chinaz.com/jianli/free_{}.html".format(i)
第二页及后面我会弄。怎么将第一页和后面的总体合并成一个url,然后放入requests模块内呢? wp231957 发表于 2020-12-16 09:01
咋整第一页都是独立的
我在网上做作业,刚好碰到要分页爬取的问题,所以 - - 将所有url放入列表,需要用的时候循环取出去请求就行了,需要请求单独某一页就直接通过索引取出。
urls = []
url = 'https://sc.chinaz.com/jianli/free.html'
urls.append(url)
for i in range(2, 685):
url = f'https://sc.chinaz.com/jianli/free_{i}.html'
urls.append(url) YunGuo 发表于 2020-12-17 02:05
将所有url放入列表,需要用的时候循环取出去请求就行了,需要请求单独某一页就直接通过索引取出。
感谢,我昨天也想到了这个方法,结果把你的案例中的url缩进到了for循环中,以至于每次循环都会打印一次url 。还是基础没学习好。
页:
[1]