鱼C论坛

 找回密码
 立即注册
查看: 2834|回复: 12

网页中包含动态加载内容要如何获取包括动态加载内容的所有源代码

[复制链接]
发表于 2022-1-9 10:03:16 | 显示全部楼层 |阅读模式
60鱼币
如题,网页内包含动态填充的内容,需要点击后才在左下角加载,想问问能用什么库什么方法直接获得所有动态填充的内容,而不用post请求一个一个爬取。
因为是内网,所以不能和大家分享网址,只求一个大概需要使用什么库。谢谢!
这种点击以后填充详细内容的动态加载是否和某些网站向下划到底部加载更多网页内容的原理是否一样?

点击单个辅助检查,该检查的详细内容填充至左下。

点击单个辅助检查,该检查的详细内容填充至左下。

部分网页源代码,在没点击时,详细辅助检查内容不在源代码中

部分网页源代码,在没点击时,详细辅助检查内容不在源代码中
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-9 10:05:45 | 显示全部楼层
selenium可以吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-9 10:07:21 | 显示全部楼层

selenium不行...chrome已经是49版本的古早版本了,我试了下对应的驱动时2.22和2.23,2,21也试了下,打开来是一个空网页,网址是data.com什么的 就没用内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-9 10:09:09 | 显示全部楼层
edwardpooh 发表于 2022-1-9 10:07
selenium不行...chrome已经是49版本的古早版本了,我试了下对应的驱动时2.22和2.23,2,21也试了下,打开 ...

去试试UIbot,那个自动化的那个
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-9 10:21:16 | 显示全部楼层

selenium 库  点击下 不就行了。至于版本问题  百度下  应该可以解决 。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-9 18:12:48 | 显示全部楼层
r如果一次性把数据全部读取出来,内存占用那岂不是太大了,应该是使用的是懒加载的方式,要用到的数据就取出来,没用到的数据就不取出来吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-9 22:54:41 | 显示全部楼层
wuliangtdi 发表于 2022-1-9 18:12
r如果一次性把数据全部读取出来,内存占用那岂不是太大了,应该是使用的是懒加载的方式,要用到的数据就取 ...

你说得对 搭网页的人是这么想的应该没错,但是我想把完整的源代码爬下来莫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-14 15:47:27 | 显示全部楼层
一个最基本的原理,服务器总是死的,只知道处理请求而已。
你发对应的请求,给你返对应的数据。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-16 17:32:48 | 显示全部楼层
建议去查下,怎么爬取ajax动态刷新的网页
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-6 20:12:58 | 显示全部楼层
要获取网页中的动态填充内容,可以尝试使用Selenium库。Selenium是一个自动化测试工具,也可以用于爬取动态内容的网页。它可以模拟用户操作,例如点击按钮,填写表单等,以便获取网页中的动态内容。

与向下滚动加载更多内容的原理不同,动态填充内容通常是通过JavaScript代码在页面上实时生成的。当用户执行特定操作(例如点击按钮)时,JavaScript代码会向服务器请求数据,并将其填充到页面上。因此,如果您想要获取这些动态内容,需要模拟用户操作,以便让JavaScript代码运行并获取数据。

请注意,由于您所描述的网站是内部网站,并且我们无法查看该网站的源代码或结构,因此我们不能提供特定的代码示例。但是,您可以在Python中使用Selenium来模拟用户操作,获取动态填充的内容。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-6 21:22:38 | 显示全部楼层
用 selenium 的 Edge / Firefox / Opera 浏览器
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-8 14:02:54 | 显示全部楼层
来学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-9 07:58:27 | 显示全部楼层


你描述的这种网页行为是通过JavaScript实现的动态加载内容。要从这种网页中提取动态加载的内容,你可以使用Python的Selenium库来模拟点击并获取加载的内容。

Selenium是一个自动化测试工具,它可以模拟用户在浏览器中的行为。使用Selenium,你可以编写Python代码来控制浏览器并模拟用户点击,然后获取动态加载的内容。此外,还可以使用BeautifulSoup或其他解析HTML的库来提取所需的信息。

至于你的问题,动态加载内容的原理类似于滚动加载,但实现方式有所不同。滚动加载是在用户滚动页面到达底部时,通过异步请求来加载新内容。而动态加载是通过JavaScript在页面加载后立即加载部分内容,并在用户点击时再加载其他内容。

希望这可以帮助你开始探索解决方案。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 21:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表