鱼C论坛

 找回密码
 立即注册
查看: 3788|回复: 2

[已解决]【爬虫】网页的文本被隐藏了?如何爬取?

[复制链接]
发表于 2018-2-17 02:48:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
爬取的网站:url=http://www.news.cn/politics/

我想爬取其中一部分的新闻:
FF9[K[EL5SGYW__B}PWV4)5.png

审查元素:
00.png

然后我用以下代码简单爬了一下,获取了html保存在TXT中:
  1. #!/usr/bin/env python
  2. #--*-- coding: utf-8--*--
  3. import urllib2
  4. import urllib

  5. url='http://www.news.cn/politics/'
  6. req=urllib2.Request(url)
  7. req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
  8. page=urllib2.urlopen(req)
  9. html=page.read().decode('utf-8')
  10. f=open('a.txt','wb')
  11. f.write(html.encode('utf-8'))
复制代码

我发现txt中获取的html并没有我要爬取的部分。
`4{R6)WWYY80$S~L9U)X`CG.png

请问我该怎样才能爬取到我需要的这部分内容?
最佳答案
2018-2-17 03:00:34
通过selenium模拟浏览器爬取
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-2-17 03:00:34 | 显示全部楼层    本楼为最佳答案   
通过selenium模拟浏览器爬取
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-17 08:59:47 From FishC Mobile | 显示全部楼层
用selenium自动化模拟浏览器爬取是一个办法,第二个是可以试试用
正则表达式(匹配不到再试试xpath)匹配一下,看能不能找到所需的内容
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-7 18:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表