def花 发表于 2020-8-25 08:02:25

有些网页获取不到全部内容怎么办?

import urllib.request

url = 'https://www.baidu.com/'
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

print(html)

输出的是
<html>

<head>

        <script>

                location.replace(location.href.replace("https://","http://"));

        </script>

</head>

<body>

        <noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>

</body>

</html>
明明有很多东西就是出不来www

_2_ 发表于 2020-8-25 08:03:18

你想要的内容是什么?

def花 发表于 2020-8-25 08:05:14

_2_ 发表于 2020-8-25 08:03
你想要的内容是什么?


这一大堆我都想要

1q23w31 发表于 2020-8-25 08:14:42

def花 发表于 2020-8-25 08:05
这一大堆我都想要

百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)

def花 发表于 2020-8-25 08:30:21

1q23w31 发表于 2020-8-25 08:14
百度首页涉及js,关闭js后访问如下图:(如需获取百度主页全部源代码,建议使用selenium爬取)

怎么关闭?打开上面的网站吗

1q23w31 发表于 2020-8-25 08:31:28

本帖最后由 1q23w31 于 2020-8-25 08:32 编辑

def花 发表于 2020-8-25 08:30
怎么关闭?打开上面的网站吗

浏览器设置里找找关闭js功能,怎么在这个帖子里又问一遍{:9_237:}

1q23w31 发表于 2020-8-25 08:55:06

1q23w31 发表于 2020-8-25 08:31
浏览器设置里找找关闭js功能,怎么在这个帖子里又问一遍

或着安装这个扩展

suchocolate 发表于 2020-8-25 10:19:08

改用selenium:from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = 'https://www.baidu.com'
driver = webdriver.Firefox()
driver.get(url)
print(driver.page_source)
kw = driver.find_element_by_id('kw')
kw.send_keys('Python')
kw.send_keys(Keys.ENTER)

def花 发表于 2020-8-25 10:34:57

1q23w31 发表于 2020-8-25 08:55
或着安装这个扩展

这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

1q23w31 发表于 2020-8-25 10:35:48

def花 发表于 2020-8-25 10:34
这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

私聊我

1q23w31 发表于 2020-8-25 10:44:55

def花 发表于 2020-8-25 10:34
这个怎么用的?
浏览器禁用js在哪
js是个什么鬼

看一下消息

zcy1ycz 发表于 2020-8-25 10:53:36

印象中是请求头的问题 把浏览器的请求头复制过来就好了
页: [1]
查看完整版本: 有些网页获取不到全部内容怎么办?