鱼C论坛

 找回密码
 立即注册
查看: 2453|回复: 5

[已解决]怎样获取已经打开网页的源码?

[复制链接]
发表于 2017-5-13 07:13:34 From FishC Mobile | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 ycgaodp 于 2017-5-13 10:52 编辑

如标题所述,不是python通过网址去打开网页,然后获取源码,而是网页已经打开了,python来直接获取这个网页的源码。

对上面问题进行举例补充:

1、第一种获取网页源码的最原始的方法:
   (1)、在IE地址栏输入网址如,http://www.sohu.com
   (2)、在已打开的网页上点击右键,点击查看源文件,就得了到了网页源文件。

2、第二种获取网页源码的方式:
>>> import requests
>>> html = requests.get("http://www.sohu.com/")
>>> print (html.text)

3、第三种方式,也就是我想要实现的方式:
    (1)、在IE地址栏手工输入网址如,http://www.sohu.com
     (2)、用 python来获取这个已经手工打开了的网页源码。(不知道怎么实现 ,请高手指导)
   这个需求场景:我的网址随时在变化,所以我只能在网页打开以后才来抓取数据。
最佳答案
2017-5-14 00:37:10
用selenium启动浏览器,留一个input做为网址输入的接口。
你就用这个接口,让selenium打开网页,然后直接让selenium获取源代码就行了。
你所需要的改变,就是在浏览器输入的地址,改在python里面输入就行了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-5-13 10:22:28 | 显示全部楼层
你自己写的东西,你看得懂吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-13 10:31:29 | 显示全部楼层
ooxx7788 发表于 2017-5-13 10:22
你自己写的东西,你看得懂吗

哪里有疑问?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-14 00:07:48 | 显示全部楼层
ooxx7788 发表于 2017-5-13 10:22
你自己写的东西,你看得懂吗

哈哈哈,我也没看懂他到底在说什么东西
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-14 00:37:10 | 显示全部楼层    本楼为最佳答案   
用selenium启动浏览器,留一个input做为网址输入的接口。
你就用这个接口,让selenium打开网页,然后直接让selenium获取源代码就行了。
你所需要的改变,就是在浏览器输入的地址,改在python里面输入就行了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-7 08:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表