爬取网页内容与网页审查内容不一致,Python交流,编程语言专区,鱼C论坛

gameking2oo8 发表于 2021-2-13 01:28:50

爬取网页内容与网页审查内容不一致

本帖最后由 gameking2oo8 于 2021-2-13 01:35 编辑

爬取的网页代码（网页是内网，外网无法打开）：
代码如下：
import urllib.request
response = urllib.request.urlopen("http://10.229.17.4:8080/dhmp/index.html")
html = response.read()
html = html.decode("utf-8")
print(html)
===================
获取内容如下：

==================
谷歌游览器审查代码1、2

代码太多，选择两个具有代表性的进行截图
===================
感觉爬虫比较复杂，不知道如何下手。
我想实现：
1、打开网站
2、自动输入账号、密码、验证码（通过谷歌游览器内的审查功能可以找到验证码的值）、登录
3、网站成功登录后，选择我需要操作的页面
4、输入我需要查询的内容（大约有100个或更多的需要查询）
5、查询或选择我需要的内容
6、将查询结果保存到xlsx或TXT内

该项目主要是重复的工作，让代码进行完成，达到减少工作量。

YunGuo 发表于 2021-2-13 01:28:51

根据你说的问题，我们能告诉你的也就是，你所需要的数据没有在你请求的网页源代码中的，一般这种查询某些数据，应该都会有对应数据接口的，需要去请求数据接口才能拿到数据。
内网我们没有办法访问，自然也就不能直接给你解决你问的问题。
如果你不了解网页结构，不清楚数据是从哪里来的，也就是你不会抓包分析，要么自己先学会爬虫，学会抓包分析，要么放弃。

wp231957 发表于 2021-2-13 07:25:27

内网的话，一切都靠你了

qianshang666 发表于 2021-2-13 09:47:21

用selenium

kaohsing 发表于 2021-2-13 15:25:00

一个网页渲染完毕的内容，当然不一样。
内网需要自己自立更生。

4goodworld 发表于 2021-2-13 22:29:36

两种可能，
第一种是你目前访问的连接不是你想要的数据所在的包
第二种，内容有加密

萌新人 发表于 2021-2-15 15:19:09

才开始学习

页: [1]

鱼C论坛's Archiver

爬取网页内容与网页审查内容不一致