求助！使用selenium保存页面遇到的问题,Python交流,编程语言专区,鱼C论坛

橘猫橘猫 发表于 2021-5-11 19:55:30

求助！使用selenium保存页面遇到的问题

各位大佬，我使用
html= browser.page_source
将selenium的爬取页面保存为html

但打开保存的html文件后发现，有一部分信息缺失，比如身份证信息

请问这是什么原因呢{:10_262:}

保存的html图片：

实际的页面图片：

又该如何解决{:10_329:}

wp231957 发表于 2021-5-11 20:08:26

这狠正常啊，我们使用爬虫就是想要爬取我们需要的一些资源，而不是下载为html，请问，你下载了html有啥用？？？

suchocolate 发表于 2021-5-11 20:26:23

page_source只是html，而实际浏览器看到的是经过javascript和css渲染出来的结果，不一样是正常的。

橘猫橘猫 发表于 2021-5-11 21:51:12

suchocolate 发表于 2021-5-11 20:26
page_source只是html，而实际浏览器看到的是经过javascript和css渲染出来的结果，不一样是正常的。

那请问一下，使用selenium想要获取渲染以后的结果，需要怎么操作呢？{:10_254:}

suchocolate 发表于 2021-5-11 22:34:10

橘猫橘猫发表于 2021-5-11 21:51
那请问一下，使用selenium想要获取渲染以后的结果，需要怎么操作呢？

要看你想爬的具体内容

putuo3 发表于 2021-5-13 19:16:08

用save_screenshot()保存图片不是挺好的嘛

南归发表于 2021-5-15 19:03:56

http://main.net.cn/faq/test-maintain/selenium/save-complete-web-page-incl-css-images-using-python-selenium/

页: [1]

鱼C论坛's Archiver

求助！使用selenium保存页面遇到的问题