[已解决]爬虫煎蛋网中原因页码规律的问题。

非凡 · 发表于 2021-11-8 23:49:06

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

目前煎蛋网的页码用的url变成这样了
微信截图_20211108233639.png

第一页的url
http://jandan.net/ooxx/MjAyMTExMDgtMQ==#comments
第二页的url
http://jandan.net/ooxx/MjAyMTExMDgtMg==#comments
第三页的url
http://jandan.net/ooxx/MjAyMTExMDgtMw==#comments

像这样的页码和url之间似乎没什么规律了，和正常字母表也对不上吧，是做了简单的加密？

这样的网站，有办法知道页码和页码url之间存在的规律吗？

如果要切换到下一页，是不是只能通过爬取网站“下一页”的按钮超链接url，来进入到下一页资源中去了？

最佳答案

月排行榜 / 总排行榜

suchocolate

2021-11-9 17:48:42

本帖最后由 suchocolate 于 2021-11-9 17:54 编辑

那个是日期的base64编码

import base64
b = '20200815-99'.encode("utf-8")
print(base64.b64encode(b))
# 随便找一页url解码效果：
t = 'MjAyMTExMDktMTk='
print(base64.b64decode(t))

复制代码

跳转到最佳答案楼层

z5560636 · 发表于 2021-11-9 09:08:02

直接用筛选器去选择网页不是更好吗？

wp231957 · 发表于 2021-11-9 09:25:31

非凡 · 发表于 2021-11-9 14:11:08

z5560636 发表于 2021-11-9 09:08
直接用筛选器去选择网页不是更好吗？

一个页面中只有提供了前后，共才三页的链接，更多的需要翻页到下一页去

如果说知道他这页码的规律，通过个循环改url不是比爬取url更快吗？

这不是阻碍了我爬虫，我只是好奇这网站页码和url之间的关系？不理解，所以来问问。

非凡 · 发表于 2021-11-9 14:12:59

wp231957 发表于 2021-11-9 09:25
[19]
...

我知道，通过不断爬下一页的url也能循环的爬取资源。

我不理解的是这网站页码和url之间的关系，所以来问问。

suchocolate · 发表于 2021-11-9 17:48:42

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

本帖最后由 suchocolate 于 2021-11-9 17:54 编辑

那个是日期的base64编码

import base64
b = '20200815-99'.encode("utf-8")
print(base64.b64encode(b))
# 随便找一页url解码效果：
t = 'MjAyMTExMDktMTk='
print(base64.b64decode(t))

复制代码

z5560636 · 发表于 2021-11-10 09:27:37

非凡发表于 2021-11-9 14:12
我知道，通过不断爬下一页的url也能循环的爬取资源。

我不理解的是这网站页码和url之间的关系，所以来 ...

有啥好奇的，做网页开发的时候，你可以自定义URL连接，
比如：

path("ccd/ccd/<ccd>",ccd,name="ccd")
path("ccd/ccd",cce)

复制代码

URL 参数可以定义一个接收的变量，你后端收到了后，想做啥都行。

非凡 · 发表于 2021-11-10 15:45:03

suchocolate 发表于 2021-11-9 17:48
那个是日期的base64编码

非常感谢~

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫煎蛋网中原因页码规律的问题。

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块