鱼C论坛

 找回密码
 立即注册
查看: 1737|回复: 11

[已解决]有些网页获取不到全部内容怎么办?

[复制链接]
发表于 2020-8-25 08:02:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request

  2. url = 'https://www.baidu.com/'
  3. response = urllib.request.urlopen(url)
  4. html = response.read().decode('utf-8')

  5. print(html)
复制代码

输出的是
  1. <html>

  2. <head>

  3.         <script>

  4.                 location.replace(location.href.replace("https://","http://"));

  5.         </script>

  6. </head>

  7. <body>

  8.         <noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>

  9. </body>

  10. </html>
复制代码

明明有很多东西就是出不来www
最佳答案
2020-8-25 08:14:42
def花 发表于 2020-8-25 08:05
这一大堆我都想要

百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)
2020-8-25 8-12-56.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-8-25 08:03:18 From FishC Mobile | 显示全部楼层
你想要的内容是什么?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-25 08:05:14 | 显示全部楼层
_2_ 发表于 2020-8-25 08:03
你想要的内容是什么?

VLCT)[8~CF@2DR](EX.png
这一大堆我都想要
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 08:14:42 | 显示全部楼层    本楼为最佳答案   
def花 发表于 2020-8-25 08:05
这一大堆我都想要

百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)
2020-8-25 8-12-56.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-25 08:30:21 | 显示全部楼层
1q23w31 发表于 2020-8-25 08:14
百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)

怎么关闭?打开上面的网站吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 08:31:28 | 显示全部楼层
本帖最后由 1q23w31 于 2020-8-25 08:32 编辑
def花 发表于 2020-8-25 08:30
怎么关闭?打开上面的网站吗


浏览器设置里找找关闭js功能,怎么在这个帖子里又问一遍
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 08:55:06 | 显示全部楼层
1q23w31 发表于 2020-8-25 08:31
浏览器设置里找找关闭js功能,怎么在这个帖子里又问一遍

或着安装这个扩展 新建.zip (252.92 KB, 下载次数: 2)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:19:08 | 显示全部楼层
改用selenium:
  1. from selenium import webdriver
  2. from selenium.webdriver.common.keys import Keys

  3. url = 'https://www.baidu.com'
  4. driver = webdriver.Firefox()
  5. driver.get(url)
  6. print(driver.page_source)
  7. kw = driver.find_element_by_id('kw')
  8. kw.send_keys('Python')
  9. kw.send_keys(Keys.ENTER)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-25 10:34:57 | 显示全部楼层
1q23w31 发表于 2020-8-25 08:55
或着安装这个扩展

这个怎么用的?
浏览器禁用js在哪
js是个什么鬼
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:35:48 | 显示全部楼层
def花 发表于 2020-8-25 10:34
这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

私聊我
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:44:55 | 显示全部楼层
def花 发表于 2020-8-25 10:34
这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

看一下消息
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-25 10:53:36 | 显示全部楼层
印象中是请求头的问题 把浏览器的请求头复制过来就好了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-26 03:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表