鱼C论坛

 找回密码
 立即注册
查看: 798|回复: 7

[已解决]关于爬虫登陆验证问题

[复制链接]
发表于 2018-10-21 11:21:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
个人对爬虫方面有兴趣 ,最好就爬了些网站 ,但遇到需要验证码登陆,登陆验证好麻烦。挺难不确定性大。 随后了解到用selenium 模拟登陆,这样登陆会简单些。但登陆后信息还是在浏览器上面 , 如果这时候用import urllib.request 还是一样会是没有登陆的状态。

有没有什么更好的方式  或登陆验证码有系统的学习吗
最佳答案
2018-10-21 12:29:07
用PhantomJS,好像可以设置不加载图片,就快很多了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-10-21 12:00:04 | 显示全部楼层
selenium你爬到了登录信息在浏览器上,可以用page_source获得代码,不用urllib.request了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-10-21 12:07:52 | 显示全部楼层
新手不推荐用selenium,如果不想学习代码爬虫 可以自己去找八爪鱼采集器以及其他各种采集器快速采集数据
新手还是用requests库多练练 如需登录采集,可以学习携带cookies访问
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-10-21 12:15:07 | 显示全部楼层
孤独的嫖客 发表于 2018-10-21 12:07
新手不推荐用selenium,如果不想学习代码爬虫 可以自己去找八爪鱼采集器以及其他各种采集器快速采集数据
...

携带cookies访问 是不需要验证是吗    主要是需要登陆才能抓取的内容 访问不到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-10-21 12:26:39 | 显示全部楼层
塔利班 发表于 2018-10-21 12:00
selenium你爬到了登录信息在浏览器上,可以用page_source获得代码,不用urllib.request了


selenium  速度上慢了很多   我喜欢爬虫  但现在不知道从那里学起了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-10-21 12:29:07 | 显示全部楼层    本楼为最佳答案   
用PhantomJS,好像可以设置不加载图片,就快很多了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-10-21 12:36:00 | 显示全部楼层
塔利班 发表于 2018-10-21 12:29
用PhantomJS,好像可以设置不加载图片,就快很多了

谢谢   
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-10-21 20:36:22 | 显示全部楼层
暗夜之隐 发表于 2018-10-21 12:15
携带cookies访问 是不需要验证是吗    主要是需要登陆才能抓取的内容 访问不到

.........慢慢分析吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-28 21:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表