鱼C论坛

 找回密码
 立即注册
查看: 1812|回复: 7

[已解决]爬虫煎蛋网中原因页码规律的问题。

[复制链接]
发表于 2021-11-8 23:49:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
目前煎蛋网的页码用的url变成这样了
微信截图_20211108233639.png
第一页的url
http://jandan.net/ooxx/MjAyMTExMDgtMQ==#comments
第二页的url
http://jandan.net/ooxx/MjAyMTExMDgtMg==#comments
第三页的url
http://jandan.net/ooxx/MjAyMTExMDgtMw==#comments


像这样的页码和url之间似乎没什么规律了,和正常字母表也对不上吧,是做了简单的加密?

这样的网站,有办法知道页码和页码url之间存在的规律吗?

如果要切换到下一页,是不是只能通过爬取网站“下一页”的按钮超链接url,来进入到下一页资源中去了?
最佳答案
2021-11-9 17:48:42
本帖最后由 suchocolate 于 2021-11-9 17:54 编辑

那个是日期的base64编码
import base64

b = '20200815-99'.encode("utf-8")
print(base64.b64encode(b))

# 随便找一页url解码效果:
t = 'MjAyMTExMDktMTk='
print(base64.b64decode(t))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-11-9 09:08:02 | 显示全部楼层
直接用筛选器去选择网页不是更好吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-11-9 09:25:31 | 显示全部楼层
<div class="comments">
                        <div class="cp-pagenavi">
                                                                        <span class="current-comment-page">[19]</span>
                                                                            <a href="//jandan.net/ooxx/MjAyMTExMDktMTg=#comments">
                    18                </a>
                                                                            <a href="//jandan.net/ooxx/MjAyMTExMDktMTc=#comments">
                    17                </a>
                                                                        <a title="Older Comments" href="//jandan.net/ooxx/MjAyMTExMDktMTg=#comments" class="previous-comment-page">下一页</a>
                    </div>
            </div>
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-11-9 14:11:08 | 显示全部楼层
z5560636 发表于 2021-11-9 09:08
直接用筛选器去选择网页不是更好吗?

一个页面中只有提供了前后,共才三页的链接,更多的需要翻页到下一页去

如果说知道他这页码的规律,通过个循环改url不是比爬取url更快吗?

这不是阻碍了我爬虫,我只是好奇这网站页码和url之间的关系?不理解,所以来问问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-11-9 14:12:59 | 显示全部楼层
wp231957 发表于 2021-11-9 09:25
[19]
                ...

我知道,通过不断爬下一页的url也能循环的爬取资源。

我不理解的是这网站页码和url之间的关系,所以来问问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-11-9 17:48:42 | 显示全部楼层    本楼为最佳答案   
本帖最后由 suchocolate 于 2021-11-9 17:54 编辑

那个是日期的base64编码
import base64

b = '20200815-99'.encode("utf-8")
print(base64.b64encode(b))

# 随便找一页url解码效果:
t = 'MjAyMTExMDktMTk='
print(base64.b64decode(t))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-11-10 09:27:37 | 显示全部楼层
非凡 发表于 2021-11-9 14:12
我知道,通过不断爬下一页的url也能循环的爬取资源。

我不理解的是这网站页码和url之间的关系,所以来 ...

有啥好奇的,做网页开发的时候,你可以自定义URL连接,
比如:
path("ccd/ccd/<ccd>",ccd,name="ccd")


path("ccd/ccd",cce)
URL 参数可以定义一个接收的变量,你后端收到了后,想做啥都行。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-11-10 15:45:03 | 显示全部楼层
suchocolate 发表于 2021-11-9 17:48
那个是日期的base64编码

非常感谢~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 21:06

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表