鱼C论坛

 找回密码
 立即注册
查看: 3453|回复: 0

[技术交流] 【爬虫】url不变:对_doPostBack分页的解决方法

[复制链接]
发表于 2018-2-23 15:51:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 脑子 于 2018-2-23 15:51 编辑

前几天爬网页的时候遇到点问题,对翻页之后URL不变的网页很迷茫,查看源码后发现是采用_doPostBack分页,折腾了几天得出结果,记录一下。

问题详见我前几天发的求助帖:http://bbs.fishc.com/thread-105390-1-1.html

====================================================================================================
对于_doPostBack分页的解决方法,就是 DO POST BACK!

也就是采用post的方法来访问网页:
比如,对于以下这个网址:http://www.science-weekly.cn/MoreList.aspx?id=1

踩点后有发现:
1.审查翻页按钮: HLXL(_842F[5Y~6VVGJ5@1L.png
使用了_doPostBack分页:
[GBY%0~8X@)VFD4AHLQ(LYD.png

2.network:
翻页的时候form data里参数在改变:
第四页:
S)KU(}S`9@_INM5UKXT06~W.png
第三页:
U5G}YPUPTJ_5~KUCB@)IA5E.png

于是post formdata中的几个参数:
1.viewstate:疑似乱码,其实是base64编码,可以在网上找个在线解码的网站研究下规律:
KK0SAVPRSQ8BN`057E3~@D5.png
每页的viewstate的值是一样的,都是第一页内容的base64编码。

2.__EVENTTARGET:一直不变,是List1$AspNetPager1

3.__EVENTARGUMENT:就是需要翻到的页数

即:
def open_url(url,page_num,viewstate):
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36'}
    values={'__VIEWSTATE':viewstate,'__EVENTTARGET':'List1$AspNetPager1','__EVENTARGUMENT':page_num}
    data = urllib.urlencode(values)
    req=urllib2.Request(url,data,headers)
    page=urllib2.urlopen(req)
    html=page.read()
    return html

那viewstate上哪找呢?
不变的URL指向第一页,那就在第一页中的源码中找就好啦:
N0G~XY5%$WHWLPL_VBR]CPM.png

这样就可以实现URL不变的翻页了!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-12 08:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表