鱼C论坛

 找回密码
 立即注册
查看: 2285|回复: 5

python爬虫求助

[复制链接]
发表于 2017-4-12 00:04:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 sbdjdy 于 2017-4-12 00:07 编辑

大家好,自己刚接触python,想利用Python爬虫下载单位数据库中的数据,不知是否可行?如果可行,不知哪位大神可以给个解决思路?具体问题如下(因bm需要,不能给出具体文件格式,望见谅!):
在登录状态下,当点击下载某个文件时,可以正常下载,F12审查元素可以看到请求的网址为“http://10.79.1.174/File/Download ... 0.06959906010267352”,在浏览器中输入该网址也可以直接下载此文件。我想问的是怎么利用python把这个文件爬取并下载下来,我试过urllib.request模块里面的Request与urlopen,得到的是一个html而不是需要的数据文件,自己是个菜鸟,只用C++与C#做过一些简单的exe开发,对于网络真的是一窍不通,哪位大神可以帮帮我?谢谢了!该链接的Headers如图所示。

python求组

python求组
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-12 06:59:31 | 显示全部楼层
进入单位的数据库需要密码的好像
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-12 09:11:07 | 显示全部楼层
答案应该在cookie里面,就是说你的请求必须带上cookie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-12 09:31:43 | 显示全部楼层
这种请求应该是需要验证用户名和密码的,所以你要带上cookie后得到到html才是你想要的。然后在解析这个html。如果html标签中没有,那么有可能你要的东西是在json中,也是用正则表达式去匹配出来,然后就差不多了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-12 22:34:08 | 显示全部楼层
本帖最后由 sbdjdy 于 2017-4-12 22:45 编辑

谢谢各位大神解答,我就不一一答复了,我提供的这个url里面应该是饱含了账户和密码信息的,这些信息可能经过加密或是散列表之类的东西(我不太懂)变成了类似“id=f44e99dd-ce73-4982-b571-a399170003d5&cgfl=%u5355%u4E95&r=0.06959906010267352”的东西(%u5355%u4E95这东西是“单井”的unicode),在登录状态下,我在浏览器中输入这个网址就可以下载这个文件,我想利用Python爬虫的方式下载这个文件,cookie我也看过了,但自己水平有限实在不知怎么用。我在油田上班,想获取我们数据库中一口井的所有资料,想用Python爬虫实现,就碰到了上面的问题,望各位大神不吝赐教啊!

爬取结果

爬取结果
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-19 00:39:49 | 显示全部楼层
urllib2使用起来比较麻烦,建议使用 requests 处理请求获取网页,使用 xpath 或 beautifulsoup 进行页面定位分析。
对于动态网页需要构建 url ,这个比较麻烦,要不就直接用 selenium 来做好了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-7 12:25

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表