非凡 发表于 2021-11-8 23:49:06

爬虫煎蛋网中原因页码规律的问题。

目前煎蛋网的页码用的url变成这样了

第一页的url
http://jandan.net/ooxx/MjAyMTExMDgtMQ==#comments
第二页的url
http://jandan.net/ooxx/MjAyMTExMDgtMg==#comments
第三页的url
http://jandan.net/ooxx/MjAyMTExMDgtMw==#comments


像这样的页码和url之间似乎没什么规律了,和正常字母表也对不上吧,是做了简单的加密?

这样的网站,有办法知道页码和页码url之间存在的规律吗?

如果要切换到下一页,是不是只能通过爬取网站“下一页”的按钮超链接url,来进入到下一页资源中去了?

z5560636 发表于 2021-11-9 09:08:02

{:10_243:}直接用筛选器去选择网页不是更好吗?

wp231957 发表于 2021-11-9 09:25:31

<div class="comments">
                        <div class="cp-pagenavi">
                                                                        <span class="current-comment-page"></span>
                                                                            <a href="//jandan.net/ooxx/MjAyMTExMDktMTg=#comments">
                  18                </a>
                                                                            <a href="//jandan.net/ooxx/MjAyMTExMDktMTc=#comments">
                  17                </a>
                                                                        <a title="Older Comments" href="//jandan.net/ooxx/MjAyMTExMDktMTg=#comments" class="previous-comment-page">下一页</a>
                  </div>
            </div>

非凡 发表于 2021-11-9 14:11:08

z5560636 发表于 2021-11-9 09:08
直接用筛选器去选择网页不是更好吗?

一个页面中只有提供了前后,共才三页的链接,更多的需要翻页到下一页去

如果说知道他这页码的规律,通过个循环改url不是比爬取url更快吗?

这不是阻碍了我爬虫,我只是好奇这网站页码和url之间的关系?不理解,所以来问问。

非凡 发表于 2021-11-9 14:12:59

wp231957 发表于 2021-11-9 09:25

                ...

我知道,通过不断爬下一页的url也能循环的爬取资源。

我不理解的是这网站页码和url之间的关系,所以来问问。

suchocolate 发表于 2021-11-9 17:48:42

本帖最后由 suchocolate 于 2021-11-9 17:54 编辑

那个是日期的base64编码
import base64

b = '20200815-99'.encode("utf-8")
print(base64.b64encode(b))

# 随便找一页url解码效果:
t = 'MjAyMTExMDktMTk='
print(base64.b64decode(t))

z5560636 发表于 2021-11-10 09:27:37

非凡 发表于 2021-11-9 14:12
我知道,通过不断爬下一页的url也能循环的爬取资源。

我不理解的是这网站页码和url之间的关系,所以来 ...

有啥好奇的,做网页开发的时候,你可以自定义URL连接,
比如:
path("ccd/ccd/<ccd>",ccd,name="ccd")


path("ccd/ccd",cce)
URL 参数可以定义一个接收的变量,你后端收到了后,想做啥都行。

非凡 发表于 2021-11-10 15:45:03

suchocolate 发表于 2021-11-9 17:48
那个是日期的base64编码

{:5_106:}非常感谢~
页: [1]
查看完整版本: 爬虫煎蛋网中原因页码规律的问题。