鱼C论坛

 找回密码
 立即注册
查看: 2649|回复: 6

[已解决]爬取网页内容与网页审查内容不一致

[复制链接]
发表于 2021-2-13 01:28:50 | 显示全部楼层 |阅读模式
2鱼币
本帖最后由 gameking2oo8 于 2021-2-13 01:35 编辑

爬取的网页代码(网页是内网,外网无法打开):
代码如下:
import urllib.request
response = urllib.request.urlopen("http://10.229.17.4:8080/dhmp/index.html")
html = response.read()
html = html.decode("utf-8")
print(html)
===================
获取内容如下:

代码获取内容

代码获取内容


==================
谷歌游览器审查代码1、2

谷歌审查代码1

谷歌审查代码1

谷歌审查代码2

谷歌审查代码2

代码太多,选择两个具有代表性的进行截图
===================
感觉爬虫比较复杂,不知道如何下手。
我想实现:
1、打开网站
2、自动输入账号、密码、验证码(通过谷歌游览器内的审查功能可以找到验证码的值)、登录
3、网站成功登录后,选择我需要操作的页面
4、输入我需要查询的内容(大约有100个或更多的需要查询)
5、查询或选择我需要的内容
6、将查询结果保存到xlsx或TXT内

该项目主要是重复的工作,让代码进行完成,达到减少工作量。
最佳答案
2021-2-13 01:28:51
根据你说的问题,我们能告诉你的也就是,你所需要的数据没有在你请求的网页源代码中的,一般这种查询某些数据,应该都会有对应数据接口的,需要去请求数据接口才能拿到数据。
内网我们没有办法访问,自然也就不能直接给你解决你问的问题。
如果你不了解网页结构,不清楚数据是从哪里来的,也就是你不会抓包分析,要么自己先学会爬虫,学会抓包分析,要么放弃。

最佳答案

查看完整内容

根据你说的问题,我们能告诉你的也就是,你所需要的数据没有在你请求的网页源代码中的,一般这种查询某些数据,应该都会有对应数据接口的,需要去请求数据接口才能拿到数据。 内网我们没有办法访问,自然也就不能直接给你解决你问的问题。 如果你不了解网页结构,不清楚数据是从哪里来的,也就是你不会抓包分析,要么自己先学会爬虫,学会抓包分析,要么放弃。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-13 01:28:51 | 显示全部楼层    本楼为最佳答案   
根据你说的问题,我们能告诉你的也就是,你所需要的数据没有在你请求的网页源代码中的,一般这种查询某些数据,应该都会有对应数据接口的,需要去请求数据接口才能拿到数据。
内网我们没有办法访问,自然也就不能直接给你解决你问的问题。
如果你不了解网页结构,不清楚数据是从哪里来的,也就是你不会抓包分析,要么自己先学会爬虫,学会抓包分析,要么放弃。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-13 07:25:27 From FishC Mobile | 显示全部楼层
内网的话,一切都靠你了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-13 09:47:21 From FishC Mobile | 显示全部楼层
用selenium
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-13 15:25:00 | 显示全部楼层
一个网页渲染完毕的内容,当然不一样。
内网需要自己自立更生。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-13 22:29:36 | 显示全部楼层
两种可能,
第一种是你目前访问的连接不是你想要的数据所在的包
第二种,内容有加密
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-15 15:19:09 | 显示全部楼层
才开始学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 13:01

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表