python爬虫求助

sbdjdy · 发表于 2017-4-12 00:04:06

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 sbdjdy 于 2017-4-12 00:07 编辑

大家好，自己刚接触python，想利用Python爬虫下载单位数据库中的数据，不知是否可行？如果可行，不知哪位大神可以给个解决思路？具体问题如下（因bm需要，不能给出具体文件格式，望见谅！）：
在登录状态下，当点击下载某个文件时，可以正常下载，F12审查元素可以看到请求的网址为“http://10.79.1.174/File/Download ... 0.06959906010267352”，在浏览器中输入该网址也可以直接下载此文件。我想问的是怎么利用python把这个文件爬取并下载下来，我试过urllib.request模块里面的Request与urlopen，得到的是一个html而不是需要的数据文件，自己是个菜鸟，只用C++与C#做过一些简单的exe开发，对于网络真的是一窍不通，哪位大神可以帮帮我？谢谢了！该链接的Headers如图所示。

alltolove · 发表于 2017-4-12 06:59:31

进入单位的数据库需要密码的好像

gopythoner · 发表于 2017-4-12 09:11:07

答案应该在cookie里面，就是说你的请求必须带上cookie

jackche0214 · 发表于 2017-4-12 09:31:43

这种请求应该是需要验证用户名和密码的，所以你要带上cookie后得到到html才是你想要的。然后在解析这个html。如果html标签中没有，那么有可能你要的东西是在json中，也是用正则表达式去匹配出来，然后就差不多了

sbdjdy · 发表于 2017-4-12 22:34:08

本帖最后由 sbdjdy 于 2017-4-12 22:45 编辑

谢谢各位大神解答，我就不一一答复了，我提供的这个url里面应该是饱含了账户和密码信息的，这些信息可能经过加密或是散列表之类的东西（我不太懂）变成了类似“id=f44e99dd-ce73-4982-b571-a399170003d5&cgfl=%u5355%u4E95&r=0.06959906010267352”的东西（%u5355%u4E95这东西是“单井”的unicode），在登录状态下，我在浏览器中输入这个网址就可以下载这个文件，我想利用Python爬虫的方式下载这个文件，cookie我也看过了，但自己水平有限实在不知怎么用。我在油田上班，想获取我们数据库中一口井的所有资料，想用Python爬虫实现，就碰到了上面的问题，望各位大神不吝赐教啊！

1968609663 · 发表于 2017-4-19 00:39:49

urllib2使用起来比较麻烦，建议使用 requests 处理请求获取网页，使用 xpath 或 beautifulsoup 进行页面定位分析。
对于动态网页需要构建 url ，这个比较麻烦，要不就直接用 selenium 来做好了。

账号		自动登录	找回密码
密码			立即注册

python爬虫求助

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块