鱼C论坛

 找回密码
 立即注册
查看: 1474|回复: 11

[已解决]有些网页获取不到全部内容怎么办?

[复制链接]
发表于 2020-8-25 08:02:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request

url = 'https://www.baidu.com/'
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

print(html)
输出的是
<html>

<head>

        <script>

                location.replace(location.href.replace("https://","http://"));

        </script>

</head>

<body>

        <noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>

</body>

</html>
明明有很多东西就是出不来www
最佳答案
2020-8-25 08:14:42
def花 发表于 2020-8-25 08:05
这一大堆我都想要

百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)
2020-8-25 8-12-56.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-25 08:03:18 From FishC Mobile | 显示全部楼层
你想要的内容是什么?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-25 08:05:14 | 显示全部楼层
_2_ 发表于 2020-8-25 08:03
你想要的内容是什么?

VLCT)[8~CF@2DR](EX.png
这一大堆我都想要
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 08:14:42 | 显示全部楼层    本楼为最佳答案   
def花 发表于 2020-8-25 08:05
这一大堆我都想要

百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)
2020-8-25 8-12-56.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-25 08:30:21 | 显示全部楼层
1q23w31 发表于 2020-8-25 08:14
百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)

怎么关闭?打开上面的网站吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 08:31:28 | 显示全部楼层
本帖最后由 1q23w31 于 2020-8-25 08:32 编辑
def花 发表于 2020-8-25 08:30
怎么关闭?打开上面的网站吗


浏览器设置里找找关闭js功能,怎么在这个帖子里又问一遍
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 08:55:06 | 显示全部楼层
1q23w31 发表于 2020-8-25 08:31
浏览器设置里找找关闭js功能,怎么在这个帖子里又问一遍

或着安装这个扩展 新建.zip (252.92 KB, 下载次数: 2)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:19:08 | 显示全部楼层
改用selenium:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = 'https://www.baidu.com'
driver = webdriver.Firefox()
driver.get(url)
print(driver.page_source)
kw = driver.find_element_by_id('kw')
kw.send_keys('Python')
kw.send_keys(Keys.ENTER)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-25 10:34:57 | 显示全部楼层
1q23w31 发表于 2020-8-25 08:55
或着安装这个扩展

这个怎么用的?
浏览器禁用js在哪
js是个什么鬼
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:35:48 | 显示全部楼层
def花 发表于 2020-8-25 10:34
这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

私聊我
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:44:55 | 显示全部楼层
def花 发表于 2020-8-25 10:34
这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

看一下消息
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:53:36 | 显示全部楼层
印象中是请求头的问题 把浏览器的请求头复制过来就好了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-19 03:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表