[已解决]用scrapy写爬虫，求教iframe里的xpath怎么写？

xxpythonxx · 发表于 2017-4-10 14:08:46

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

如何提取测试两个字？

<div id="iframeGg">
<iframe src="http://abc.com" name="aaa" frameborder="0" width="100%" height="825px">
  #document
<html>
   <head>
      <meta>
      <title>测试</title>
      <link>
      <link>
      <style></style>
   </head>
</html>
  </iframe>
</div>

最佳答案

月排行榜 / 总排行榜

gopythoner

2017-4-10 14:58:25

xxpythonxx 发表于 2017-4-10 14:37
http://www.gov.cn/zhengce/xxgkzl.htm

这个表格。我是初学，就是按照XPATH，一列列爬，测试发现结果 ...

你的问题不在于iframe里面的信息怎么爬，在于你找到URL是不对的，这个iframe里面的信息都是加载出来。
你把你的请求地址换成这个http://sousuo.gov.cn/list.htm?q=&n=15&p=4&t=paper&sort=pubtime&searchfield=title:content:pcode:puborg:keyword&timetype=timeqb
这个地址可以请求到所有的文件，其中p=4代表第4页，你可以通过更换这个数字来实现翻页，其他的信息不需要动
请求了这个之后再按照普通的查找方法提取信息就行了
PS：一看到你发的这个是ZF的网站我就慌了，毕竟，ZF的网站能做出反爬？我反正不信...

跳转到最佳答案楼层

gopythoner · 发表于 2017-4-10 14:22:22

先定位到iframe这个标签，然后在从中定位你要的，这样难道不行？
讲真，对于iframe这种我只是在用selenium的时候用到过，需要先把鼠标移到这个框架里面然后再寻找，使用Scrapy还真没试过，不过我感觉跟普通的定位应该没什么区别吧
你先试试，不行的话麻烦发个链接，我回去看看这个网站的信息怎么爬
最近正好没有爬什么新网站，可以练练手

xxpythonxx · 发表于 2017-4-10 14:37:37

gopythoner 发表于 2017-4-10 14:22
先定位到iframe这个标签，然后在从中定位你要的，这样难道不行？
讲真，对于iframe这种我只是在用selenium ...

http://www.gov.cn/zhengce/xxgkzl.htm

这个表格。我是初学，就是按照XPATH，一列列爬，测试发现结果为空。
或者有神马更好的方法~

gopythoner · 发表于 2017-4-10 14:58:25

这个最佳答案由 gopythoner 给出，感谢 gopythoner 的回答。

单击隐藏图章

xxpythonxx 发表于 2017-4-10 14:37
http://www.gov.cn/zhengce/xxgkzl.htm

这个表格。我是初学，就是按照XPATH，一列列爬，测试发现结果 ...

你的问题不在于iframe里面的信息怎么爬，在于你找到URL是不对的，这个iframe里面的信息都是加载出来。
你把你的请求地址换成这个http://sousuo.gov.cn/list.htm?q=&n=15&p=4&t=paper&sort=pubtime&searchfield=title:content:pcode:puborg:keyword&timetype=timeqb
这个地址可以请求到所有的文件，其中p=4代表第4页，你可以通过更换这个数字来实现翻页，其他的信息不需要动
请求了这个之后再按照普通的查找方法提取信息就行了
PS：一看到你发的这个是ZF的网站我就慌了，毕竟，ZF的网站能做出反爬？我反正不信...

xxpythonxx · 发表于 2017-4-10 15:05:44

gopythoner 发表于 2017-4-10 14:58
你的问题不在于iframe里面的信息怎么爬，在于你找到URL是不对的，这个iframe里面的信息都是加载出来。
...

给力~

我研究几天了，目前也没有JCSS找我。

gopythoner · 发表于 2017-4-10 15:10:23

xxpythonxx 发表于 2017-4-10 15:05
给力~
我研究几天了，目前也没有JCSS找我。

我的第一个爬虫既不是爬什么豆瓣电影，也不是爬糗百笑话，更不是爬MM图，而是直接挖了了大坑去爬天猫店铺的商品，而且不是搜索的产品信息，是定向店铺的全部商品，这个大坑把我坑了大半个月，也是因为这大半个月最后搞定了，让我再去爬其他网站的信息就变得异常容易。
所以说，牛逼的网站还是值得去看看怎么爬的

账号		自动登录	找回密码
密码			立即注册

[已解决]用scrapy写爬虫，求教iframe里的xpath怎么写？

马上注册，结交更多好友，享用更多功能^_^

评分