鱼C论坛

 找回密码
 立即注册
查看: 2265|回复: 13

爬虫非http网站

[复制链接]
发表于 2019-6-28 00:08:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
对于这样的网站alires:///WebUI/chatmsg/recent.html? 不是http,https开头的网站该怎么爬,试过用requests会报错。有什么好的办法吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-6-28 09:43:31 | 显示全部楼层
本质上还是html页面,试试看能不能用python的open函数打开,

如果不能,就把html页面保存下来,然后再用open函数打开html文档,对立面的内容进行解析

然后再用,lxml,beautifulsoup来解析html文件并抽取内容即可
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-28 09:47:52 | 显示全部楼层
你这网址能用浏览器浏览么?可用的话就可用用selenium一类的自动化测试工具进行爬取
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-28 10:11:51 | 显示全部楼层
害怕型全嘲豪 发表于 2019-6-28 09:47
你这网址能用浏览器浏览么?可用的话就可用用selenium一类的自动化测试工具进行爬取

不能哦,显示无法访问此网站 找不到 webui 的服务器 IP 地址。
尝试运行 Windows 网络诊断。
DNS_PROBE_FINISHED_NXDOMAIN
网址是这种lires:///WebUI/chatmsg/recent.html?debug=true&type=0&dlguniqname=0cb44d0f-6012-4a8a-83fd-57e36f09e1f3&param=%7B%22actiondata%22%3A%22%22%2C%22actiontype%22%3A0%2C%22cid%22%3A%7B%22appkey%22%3A%22%22%2C%22nick%22%3A%22%22%7D%2C%22gids%22%3A%5B%5D%2C%22readmsgid%22%3A%22%22%2C%22readmsgtime%22%3A%22%22%7D&lang=zh_CN
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-28 10:21:47 | 显示全部楼层
newu 发表于 2019-6-28 09:43
本质上还是html页面,试试看能不能用python的open函数打开,

如果不能,就把html页面保存下来,然后再用 ...

open函数不是还能打开文件吗?能打开网址吗?另外你说的html页面保存下来是指复制来解析吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-28 10:24:25 | 显示全部楼层
fan1993423 发表于 2019-6-28 10:21
open函数不是还能打开文件吗?能打开网址吗?另外你说的html页面保存下来是指复制来解析吗?

我猜想这个协议可能就是本地的地址啊,

保存的话点击浏览器的"文件"->"保存"就好了,或者直接按Ctrl+S保存
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-28 10:25:29 From FishC Mobile | 显示全部楼层
浏览器都打不开,还玩啥了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-28 10:31:47 | 显示全部楼层
wp231957 发表于 2019-6-28 10:25
浏览器都打不开,还玩啥了

是啊,这也是我困惑的点
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-28 10:45:15 | 显示全部楼层
newu 发表于 2019-6-28 10:24
我猜想这个协议可能就是本地的地址啊,

保存的话点击浏览器的"文件"->"保存"就好了,或者直接按Ctrl+S ...


嗯,我想抓取实时的聊天信息。我在千牛界面F12得到的信息,现在就是不知道该怎么弄
2.jpg
1.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-28 10:49:08 | 显示全部楼层
fan1993423 发表于 2019-6-28 10:45
嗯,我想抓取实时的聊天信息。我在千牛界面F12得到的信息,现在就是不知道该怎么弄

这状态嘛是200,难道不是http协议吗

试试requests可不可行?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-28 10:53:15 | 显示全部楼层
不行哦
4.jpg
3.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-6-28 11:36:39 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-28 16:13:52 | 显示全部楼层
这个不像是消息的请求。
简单来说,这个地址请求的是一个html的窗口。
而不是消息的来源。  

再简单来说,这个地址只是开启了一个你对商家的聊天室。  

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-7-26 23:14:03 | 显示全部楼层
楼主你方法出来了吗,没有的话我们一起弄一下,现在也在研究这方面的东西,不过已经差不多要完善了企鹅472372788
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-16 15:20

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表