鱼C论坛

 找回密码
 立即注册
查看: 4267|回复: 5

[已解决]用scrapy写爬虫,求教iframe里的xpath怎么写?

[复制链接]
发表于 2017-4-10 14:08:46 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如何提取测试两个字?

<div id="iframeGg">
<iframe src="http://abc.com" name="aaa" frameborder="0" width="100%" height="825px">
  #document
   <html>
     <head>
         <meta>
         <title>测试</title>
         <link>
         <link>
         <style></style>
     </head>
   </html>
  </iframe>
</div>
最佳答案
2017-4-10 14:58:25
xxpythonxx 发表于 2017-4-10 14:37
http://www.gov.cn/zhengce/xxgkzl.htm

这个表格。我是初学,就是按照XPATH,一列列爬,测试发现结果 ...

你的问题不在于iframe里面的信息怎么爬,在于你找到URL是不对的,这个iframe里面的信息都是加载出来。
你把你的请求地址换成这个http://sousuo.gov.cn/list.htm?q=&n=15&p=4&t=paper&sort=pubtime&searchfield=title:content:pcode:puborg:keyword&timetype=timeqb
这个地址可以请求到所有的文件,其中p=4代表第4页,你可以通过更换这个数字来实现翻页,其他的信息不需要动
请求了这个之后再按照普通的查找方法提取信息就行了
PS:一看到你发的这个是ZF的网站我就慌了,毕竟,ZF的网站能做出反爬?我反正不信...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-10 14:22:22 | 显示全部楼层
先定位到iframe这个标签,然后在从中定位你要的,这样难道不行?
讲真,对于iframe这种我只是在用selenium的时候用到过,需要先把鼠标移到这个框架里面然后再寻找,使用Scrapy还真没试过,不过我感觉跟普通的定位应该没什么区别吧
你先试试,不行的话麻烦发个链接,我回去看看这个网站的信息怎么爬
最近正好没有爬什么新网站,可以练练手
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-10 14:37:37 | 显示全部楼层
gopythoner 发表于 2017-4-10 14:22
先定位到iframe这个标签,然后在从中定位你要的,这样难道不行?
讲真,对于iframe这种我只是在用selenium ...

http://www.gov.cn/zhengce/xxgkzl.htm

这个表格。我是初学,就是按照XPATH,一列列爬,测试发现结果为空。
或者有神马更好的方法~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-10 14:58:25 | 显示全部楼层    本楼为最佳答案   
xxpythonxx 发表于 2017-4-10 14:37
http://www.gov.cn/zhengce/xxgkzl.htm

这个表格。我是初学,就是按照XPATH,一列列爬,测试发现结果 ...

你的问题不在于iframe里面的信息怎么爬,在于你找到URL是不对的,这个iframe里面的信息都是加载出来。
你把你的请求地址换成这个http://sousuo.gov.cn/list.htm?q=&n=15&p=4&t=paper&sort=pubtime&searchfield=title:content:pcode:puborg:keyword&timetype=timeqb
这个地址可以请求到所有的文件,其中p=4代表第4页,你可以通过更换这个数字来实现翻页,其他的信息不需要动
请求了这个之后再按照普通的查找方法提取信息就行了
PS:一看到你发的这个是ZF的网站我就慌了,毕竟,ZF的网站能做出反爬?我反正不信...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-10 15:05:44 | 显示全部楼层
gopythoner 发表于 2017-4-10 14:58
你的问题不在于iframe里面的信息怎么爬,在于你找到URL是不对的,这个iframe里面的信息都是加载出来。
...

给力~
我研究几天了,目前也没有JCSS找我。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-10 15:10:23 | 显示全部楼层
xxpythonxx 发表于 2017-4-10 15:05
给力~
我研究几天了,目前也没有JCSS找我。

我的第一个爬虫既不是爬什么豆瓣电影,也不是爬糗百笑话,更不是爬MM图,而是直接挖了了大坑去爬天猫店铺的商品,而且不是搜索的产品信息,是定向店铺的全部商品,这个大坑把我坑了大半个月,也是因为这大半个月最后搞定了,让我再去爬其他网站的信息就变得异常容易。
所以说,牛逼的网站还是值得去看看怎么爬的

评分

参与人数 1荣誉 +1 鱼币 +1 收起 理由
xxpythonxx + 1 + 1 感谢楼主无私奉献!

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-17 12:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表