Python不擅长于动态网页的抓取, 这方面建议研究一下phantomJS
但是!!!

作为一个Pythoner, 遇到此等挫折岂能放弃!!!
使用工具: Chrome, Python3.4+PyCharm
首先对网页进行踩点分析分页原理, 发现通过jQuery的ajax实现
用Chrome自带的调试工具对ajax部分进行抓包, 发现其仅是简单的POST
知道方法了自然驾轻就熟, urllib.request+urllib.parse伺候之
返回数据是json格式的, 内容很详细, 自己提取需要的数据吧~祝楼主玩的开心!
代码:
- import urllib.request
- import urllib.parse
- import json
- POST_URL = 'http://www.wdzj.com/front_select-plat'
- data = {
- 'params': '',
- 'sort': '',
- 'currPage': 1, # 想要获取的页数
- }
- data = urllib.parse.urlencode(data)
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
- }
- req = urllib.request.Request(POST_URL,data.encode(),headers)
- res = urllib.request.urlopen(req).read().decode()
- res = json.loads(res)
- print(res)
复制代码