[已解决]为什么爬不到百度网页的内容

ChuckCheng · 发表于 2019-12-5 22:08:01

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

最近刚开始学到爬虫的课程
课后题目要求把下面网站的内容爬出来并保存，四个网址放在urls.txt里
http://www.fishc.com
http://www.baidu.com/
http://www.douban.com
http://www.zhihu.com
http://www.taobao.com

我的程序运行没问题，但是就是百度爬出来就两行如下：
<!DOCTYPE html>


其他四个网页爬出来都没问题。麻烦高手帮忙讲解一些这是什么原因，怎么样修改一下程序就能把baidu.com爬出来

我的程序如下：

from urllib import request
import chardet

def main():
with open("urls.txt") as f:
      urls=f.read()
      urls=urls.split()

n=1
for url in urls:
      req=request.Request(url)
      req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
      feedback=request.urlopen(req).read()
      code=chardet.detect(feedback)['encoding']
      if code=='GB2312':
         code='GBK'
      response=feedback.decode(code,"ignore")

      with open('url_%d.txt'%n,'w',encoding=code) as file:
         file.write(response)

      n+=1


if __name__=="__main__":
main()

最佳答案

月排行榜 / 总排行榜

XiaoPaiShen

2019-12-6 03:23:03

本帖最后由 XiaoPaiShen 于 2019-12-6 03:36 编辑

我来试试，看能不能爬出来

中间有些空行，用鼠标往下拖，就有内容了。

跳转到最佳答案楼层

XiaoPaiShen · 发表于 2019-12-6 03:23:03

这个最佳答案由 XiaoPaiShen 给出，感谢 XiaoPaiShen 的回答。

单击隐藏图章

本帖最后由 XiaoPaiShen 于 2019-12-6 03:36 编辑

我来试试，看能不能爬出来

中间有些空行，用鼠标往下拖，就有内容了。

XiaoPaiShen · 发表于 2019-12-6 03:37:33

XiaoPaiShen 发表于 2019-12-6 03:23
我来试试，看能不能爬出来

中间有些空行，用鼠标往下拖，就有内容了。

我的回帖，为何没有鱼币？

zltzlt · 发表于 2019-12-6 19:04:10

<!DOCTYPE html>

复制代码

这两句代码后面有很多空行，鼠标向下滚，移到 249 行处就有文字了。

心驰神往 · 发表于 2020-11-21 10:27:05

都是大佬

象棋爱好者 · 发表于 2020-11-21 17:07:37

鱼币

账号		自动登录	找回密码
密码			立即注册

[已解决]为什么爬不到百度网页的内容

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

浏览过的版块


2 鱼币	回复本帖可获得 2 鱼币奖励! 每人限 1 次(中奖概率 50%)