橘猫橘猫 发表于 2021-5-11 19:55:30

求助!使用selenium保存页面遇到的问题

各位大佬,我使用
html= browser.page_source
将selenium的爬取页面保存为html

但打开保存的html文件后发现,有一部分信息缺失,比如身份证信息

请问这是什么原因呢{:10_262:}

保存的html图片:


实际的页面图片:


又该如何解决{:10_329:}

wp231957 发表于 2021-5-11 20:08:26

这狠正常啊,我们使用爬虫就是想要爬取我们需要的一些资源,而不是下载为html,请问,你下载了html有啥用???

suchocolate 发表于 2021-5-11 20:26:23

page_source只是html,而实际浏览器看到的是经过javascript和css渲染出来的结果,不一样是正常的。

橘猫橘猫 发表于 2021-5-11 21:51:12

suchocolate 发表于 2021-5-11 20:26
page_source只是html,而实际浏览器看到的是经过javascript和css渲染出来的结果,不一样是正常的。

那请问一下,使用selenium想要获取渲染以后的结果,需要怎么操作呢?{:10_254:}

suchocolate 发表于 2021-5-11 22:34:10

橘猫橘猫 发表于 2021-5-11 21:51
那请问一下,使用selenium想要获取渲染以后的结果,需要怎么操作呢?

要看你想爬的具体内容

putuo3 发表于 2021-5-13 19:16:08

用save_screenshot()保存图片不是挺好的嘛

南归 发表于 2021-5-15 19:03:56

http://main.net.cn/faq/test-maintain/selenium/save-complete-web-page-incl-css-images-using-python-selenium/
页: [1]
查看完整版本: 求助!使用selenium保存页面遇到的问题