一个爬虫问题

a641743376 · 发表于 2018-10-10 10:43:23

http://www.shclearing.com/xxpl/c ... 0180918_428057.html 需要爬取这个页面的
QQ图片20181010103729.png

这部分内容，以为比较简单，但是实际上，这部分内容是js拼接出来的，
我用python实际只能获取到这部分内容，
QQ图片20181010104055.png

python爬虫还不够精通，故请教鱼友们的帮助，帮助我获取这部分内容
QQ图片20181010104240.png

a641743376 · 发表于 2018-10-10 10:57:32

写是写出来了但感觉很取巧还是等鱼友们的好方法

在东边 · 发表于 2018-10-10 15:47:06

import requests
import re
url = "http://www.shclearing.com/xxpl/cwbg/nb/201809/t20180918_428057.html"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
response = requests.get(url, headers=headers)
html = response.text
pat1 = re.compile(r"var fileNames = '(.*?)';", re.S)
pat2 = re.compile(r"var descNames = '(.*?)';", re.S)
file_names = pat1.search(html).group(1)
desc_names = pat2.search(html).group(1)
print(file_names)
print(desc_names)

复制代码

wongyusing · 发表于 2018-10-10 15:59:15

本帖最后由 wongyusing 于 2018-10-10 16:10 编辑

在东边发表于 2018-10-10 15:47

没用的，这只是抓取了名字而已，下载链接是由好几句文本信息拼凑的。
完整的链接藏在js代码中，大概需要四个字符串拼接而成。
有一个字符串好像还是加密的，不算加密吧，算是转码

waitforlove · 发表于 2018-10-10 22:11:27

那段js是在原html中，直接正则表达式就能搞定

账号		自动登录	找回密码
密码			立即注册