gameking2oo8 发表于 2021-2-13 01:28:50

爬取网页内容与网页审查内容不一致

本帖最后由 gameking2oo8 于 2021-2-13 01:35 编辑

爬取的网页代码(网页是内网,外网无法打开):
代码如下:
import urllib.request
response = urllib.request.urlopen("http://10.229.17.4:8080/dhmp/index.html")
html = response.read()
html = html.decode("utf-8")
print(html)
===================
获取内容如下:


==================
谷歌游览器审查代码1、2


代码太多,选择两个具有代表性的进行截图
===================
感觉爬虫比较复杂,不知道如何下手。
我想实现:
1、打开网站
2、自动输入账号、密码、验证码(通过谷歌游览器内的审查功能可以找到验证码的值)、登录
3、网站成功登录后,选择我需要操作的页面
4、输入我需要查询的内容(大约有100个或更多的需要查询)
5、查询或选择我需要的内容
6、将查询结果保存到xlsx或TXT内

该项目主要是重复的工作,让代码进行完成,达到减少工作量。

YunGuo 发表于 2021-2-13 01:28:51

根据你说的问题,我们能告诉你的也就是,你所需要的数据没有在你请求的网页源代码中的,一般这种查询某些数据,应该都会有对应数据接口的,需要去请求数据接口才能拿到数据。
内网我们没有办法访问,自然也就不能直接给你解决你问的问题。
如果你不了解网页结构,不清楚数据是从哪里来的,也就是你不会抓包分析,要么自己先学会爬虫,学会抓包分析,要么放弃。

wp231957 发表于 2021-2-13 07:25:27

内网的话,一切都靠你了

qianshang666 发表于 2021-2-13 09:47:21

用selenium

kaohsing 发表于 2021-2-13 15:25:00

一个网页渲染完毕的内容,当然不一样。
内网需要自己自立更生。

4goodworld 发表于 2021-2-13 22:29:36

两种可能,
第一种是你目前访问的连接不是你想要的数据所在的包
第二种,内容有加密

萌新人 发表于 2021-2-15 15:19:09

才开始学习
页: [1]
查看完整版本: 爬取网页内容与网页审查内容不一致