鱼C论坛

 找回密码
 立即注册
查看: 3484|回复: 24

Javascript页面自动分页是怎么触发的

[复制链接]
发表于 2020-8-22 16:57:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 getfeel 于 2020-8-22 20:16 编辑

同一个url,同样的headers,使用浏览器就不会分页,用requests 去爬就会分页

----------------------------------------------------------------------------------------
更新一下,使用浏览器抓取的cookies正常。但是requests获取的cookies就会分页。

目前来看可能是服务器在浏览的过程中在某一步对cookies做了一下认证之类的操作。






这是浏览器返回的部分代码
<form name="form" method="post" action="query_list.jsp">

<input type="hidden" name="order_field" value="Name">
<input type="hidden" name="parent_id" value="1623">
<input type="hidden" name="page_num" value="1">
<input type="hidden" name="total_pages" value="1">
<input type="hidden" name="title" value="">
<input type="hidden" name="note" value="">
<input type="hidden" name="disp_mode" value="">
<input type="hidden" name="QueryModule" value="查询管理器">
<input type="hidden" name="BusinessID" value="">
<input type="hidden" name="GroupID" value=""><!-- 添加到的目的组 -->

<table border="0" width="100%" cellspacing="1" cellpadding="1">

<tr height="33">
        <td nowrap>
                <select class="filter_combox" name="filter_combox" size="1" onMouseMove="window.status='请选择过滤字段'" onMouseOut="window.status=''">
                        <option value="Name">名称</option>
                        <option value="DispMode">显示形式</option>
                        <option value="Owner">拥有者</option>
                        <option value="Note">备注</option>
                </select>
                <span title="请输入过滤条件">
                        <input name="filter_input" size="14" value="">
                </span>
                <input type="button" value="过滤" name="filter_btn" onclick="javascript:filter()">
        </td>
        <td  align="right" nowrap>共27条记录 第1页 共1页 </td>
        <td width="110" align="right" nowrap>
                <input type="text" name="pages_input" size="6" value="页码" onFocus="this.value=''">
                <span title="请输入跳转页码">
                        <input type="button" value="跳转" name="goto_btn" onclick="goToPage()">
                </span>
        </td>
</tr>


这是request返回的:
<form name="form" method="post" action="query_list.jsp">



<input type="hidden" name="order_field" value="Name">

<input type="hidden" name="parent_id" value="1623">

<input type="hidden" name="page_num" value="1">

<input type="hidden" name="total_pages" value="2">

<input type="hidden" name="title" value="">

<input type="hidden" name="note" value="">

<input type="hidden" name="disp_mode" value="">

<input type="hidden" name="QueryModule" value="??ヨ?㈢?$?????">

<input type="hidden" name="BusinessID" value="">

<input type="hidden" name="GroupID" value=""><!-- 添加到的目的组 -->



<table border="0" width="100%" cellspacing="1" cellpadding="1">



<tr height="33">

        <td nowrap>

                <select class="filter_combox" name="filter_combox" size="1" onMouseMove="window.status='请选择过滤字段'" onMouseOut="window.status=''">

                        <option value="Name">名称</option>

                        <option value="DispMode">显示形式</option>

                        <option value="Owner">拥有者</option>

                        <option value="Note">备注</option>

                </select>

                <span title="请输入过滤条件">

                        <input name="filter_input" size="14" value="">

                </span>

                <input type="button" value="过滤" name="filter_btn" onclick="javascript:filter()">

        </td>

        <td  align="right" nowrap>共27条记录 第1页 共2页 </td>

        <td width="110" align="right" nowrap>

                <input type="text" name="pages_input" size="6" value="页码" onFocus="this.value=''">

                <span title="请输入跳转页码">

                        <input type="button" value="跳转" name="goto_btn" onclick="goToPage()">

                </span>

        </td>

</tr>
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-22 17:04:48 | 显示全部楼层
哪个url
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:15:21 | 显示全部楼层
什么意思?没理解题意。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 17:35:36 | 显示全部楼层

内网系统,给了你也没用啊。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:39:40 | 显示全部楼层
getfeel 发表于 2020-8-22 17:35
内网系统,给了你也没用啊。。。

那这两段html的不同点你说一下,看起来有的麻烦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 17:40:29 | 显示全部楼层
陈尚涵 发表于 2020-8-22 17:15
什么意思?没理解题意。

简单说就是同一个url,
通过浏览器打开,可以同时显示27行的全部内容。
但是通过爬虫程序去抓取的时候,系统分成两页,返回的是第一页的15行内容。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:41:54 | 显示全部楼层
getfeel 发表于 2020-8-22 17:40
简单说就是同一个url,
通过浏览器打开,可以同时显示27行的全部内容。
但是通过爬虫程序去抓取的时候 ...

开发者工具,看看浏览器有几个数据包
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 17:50:04 | 显示全部楼层
1q23w31 发表于 2020-8-22 17:41
开发者工具,看看浏览器有几个数据包

是指network抓取到的数据包么?除去get图片的
一共有三个,
另外还有
Request URL: http://10.96.28.57:8080/emvnms/css/newblue.css
Request URL: http://10.96.28.57:8080/emvnms/js/common.js
不过这两个在request header 里面都通过refer字段带了第一个的URL
Referer: http://10.96.28.57:8080/emvnms/z ... %F7&BusinessID=

权限不够没法上传图片,暂时只能这么描述了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:50:34 | 显示全部楼层
有没有cookies
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 17:51:45 | 显示全部楼层

当然有啊,没有cookies就不会有返回值了吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:54:55 | 显示全部楼层
用beautifulsoup吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 17:55:41 | 显示全部楼层
本帖最后由 getfeel 于 2020-8-22 17:58 编辑
1q23w31 发表于 2020-8-22 17:39
那这两段html的不同点你说一下,看起来有的麻烦



                               
登录/注册后可看大图


                               
登录/注册后可看大图


不同点除了 一个多的14条内容外就这两个地方了。

另外那个回复不知道为啥没出来。
通过浏览器network抓取的报文:

                               
登录/注册后可看大图
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:56:32 | 显示全部楼层

你用开发者工具看一下浏览器加载了几个数据包
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 17:58:11 | 显示全部楼层
那个是一共有几页。没翻页好不好
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 17:59:20 | 显示全部楼层
1q23w31 发表于 2020-8-22 17:56
你用开发者工具看一下浏览器加载了几个数据包

回在上面了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 18:00:13 | 显示全部楼层
聂嘉辉 发表于 2020-8-22 17:58
那个是一共有几页。没翻页好不好

我知道没翻页啊,问题是浏览器打开的话一个页面就可以显示完了啊。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 18:01:29 | 显示全部楼层
本帖最后由 1q23w31 于 2020-8-22 18:02 编辑
getfeel 发表于 2020-8-22 17:55
不同点除了 一个多的14条内容外就这两个地方了。

另外那个回复不知道为啥没出来。


点到response看一下初始响应包就是27条全有?或者关闭js看一下浏览器加载的响应
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 18:03:41 | 显示全部楼层
1q23w31 发表于 2020-8-22 18:01
点到response看一下初始相应包就是27条全有?或者关闭js看一下浏览器加载的响应

对,第一个报文里面27条全有,关闭js我找找看怎么弄。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-22 18:09:18 | 显示全部楼层
1q23w31 发表于 2020-8-22 18:01
点到response看一下初始响应包就是27条全有?或者关闭js看一下浏览器加载的响应

关闭JS以后除了JS那条红了,别的一切正常。。。。

                               
登录/注册后可看大图
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-22 18:09:54 | 显示全部楼层
getfeel 发表于 2020-8-22 18:09
关闭JS以后除了JS那条红了,别的一切正常。。。。

方便远程吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-14 04:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表