鱼C论坛

 找回密码
 立即注册
查看: 1082|回复: 4

一个爬虫问题

[复制链接]
发表于 2018-10-10 10:43:23 | 显示全部楼层 |阅读模式
100鱼币
http://www.shclearing.com/xxpl/c ... 0180918_428057.html   需要爬取这个页面的
QQ图片20181010103729.png 这部分内容,以为比较简单,但是实际上,这部分内容是js拼接出来的,
我用python实际只能获取到这部分内容,
QQ图片20181010104055.png
python爬虫还不够精通,故请教鱼友们的帮助,帮助我获取这部分内容
QQ图片20181010104240.png

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-10-10 10:57:32 | 显示全部楼层
写是写出来了 但感觉很取巧  还是等鱼友们的好方法
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-10-10 15:47:06 | 显示全部楼层
  1. import requests
  2. import re

  3. url = "http://www.shclearing.com/xxpl/cwbg/nb/201809/t20180918_428057.html"
  4. headers = {
  5.     "User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
  6. }
  7. response = requests.get(url, headers=headers)
  8. html = response.text
  9. pat1 = re.compile(r"var fileNames = '(.*?)';", re.S)
  10. pat2 = re.compile(r"var descNames = '(.*?)';", re.S)
  11. file_names = pat1.search(html).group(1)
  12. desc_names = pat2.search(html).group(1)
  13. print(file_names)
  14. print(desc_names)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-10-10 15:59:15 | 显示全部楼层
本帖最后由 wongyusing 于 2018-10-10 16:10 编辑


没用的,这只是抓取了名字而已,下载链接是由好几句文本信息拼凑的。  
完整的链接藏在js代码中,大概需要四个字符串拼接而成。  
有一个字符串好像还是加密的,不算加密吧,算是转码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-10-10 22:11:27 From FishC Mobile | 显示全部楼层
那段js是在原html中,直接正则表达式就能搞定
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 17:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表