鱼C论坛

 找回密码
 立即注册
查看: 3469|回复: 5

[已解决]想做一个通用的爬虫用于爬取文章求大神提供思路

[复制链接]
发表于 2017-3-19 00:59:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
对于单个网页的爬取已经很容易简单的,但是想爬取不同网站的文章就完全没有思路了,可不可以针对不同的网站爬取相应的标题,作者,文章,提供个思路也可以啊,大神救救我
最佳答案
2017-3-29 09:28:09
老子最酷 发表于 2017-3-28 20:35
其实我还是个新手,只是现在用xpath可以爬下来固定的网站,但是我想做一个能够厉害一点的,比如就爬贴吧 ...

你说的爬贴吧的信息我爬过,用scrapy爬的,跟我爬LOL数据的思路基本一致,你可以看看我爬LOL的代码,我已经分享过了http://bbs.fishc.com/thread-84760-1-1.html
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-3-27 15:51:02 | 显示全部楼层
不知道你的意思是不是这样:
你需要在不同的网站爬去相同类型的信息,比如同时爬去贴吧和论坛、图片空间等等的图片
你的意思是单独爬一个网站的图片你已经很熟悉了,现在想一次性把几个不同网站的信息都趴下来是吧
我的思路是,你把每个网站建一个单独的类,这个类实现了输入URL就能得到你要的信息
然后,你设置一个条件判断,就是判断输入的URL属于哪个网站的,然后就用哪个类去提取信息
这样你就可以批量放入多个不同网站的URL去同时爬去多个网站的信息了
当然,前提是这些网站你要爬的信息是类似的,这样才能保证你最后收集的数据是格式相同的
这种事情我做过
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2017-3-28 20:35:52 | 显示全部楼层
gopythoner 发表于 2017-3-27 15:51
不知道你的意思是不是这样:
你需要在不同的网站爬去相同类型的信息,比如同时爬去贴吧和论坛、图片空间等 ...

其实我还是个新手,只是现在用xpath可以爬下来固定的网站,但是我想做一个能够厉害一点的,比如就爬贴吧类型的网站,但是网站格式也是多种多样的,让我很困扰
还有亲爱的大神,能不能附个代码让我学习一下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-3-29 09:25:11 | 显示全部楼层
老子最酷 发表于 2017-3-28 20:35
其实我还是个新手,只是现在用xpath可以爬下来固定的网站,但是我想做一个能够厉害一点的,比如就爬贴吧 ...

网站什么类型我不知道你们怎么划分的
我只对信息的存在方式有个简单的划分
第一种最简单,就是静态网页,而且就是可以直接用requests请求得到全部信息的那种,这种没什么难度,只需要简单看一下自己要的信息在哪些标签下就行
第二种是在第一种的基础上的,也是静态网页,但是需要使用POST或者GET提交一些必要的信息,比如cookie之类的才能够请求到真实的网页信息,这种网页的重点在于分析请求所需参数是怎么来的,能不能自己构造一个,剩下的就跟第一种一样了
第三种,JS加载的信息,其实这种信息我最喜欢,因为JS加载的信息基本都是json格式的信息,提取的时候比较容易,这种网页信息的重点在于抓包(大部分使用浏览器自带的就行)找到包含信息的URL,找到之后就是解析JSON信息了,这个挺简单的
第四种,同样的加载出来的信息,但是跟第三种不同,无法再一次请求中获取完整的信息,这种网页需要你操作浏览器慢慢加载出来的。这种信息就必须使用爬虫神器selenium了,不过这种网页比较少,而且selenium速度太慢了,能不用就不用。
以上四种是我爬了各种网站信息所遇到的情况,暂时没有发现怕不了的网站(这句话不是在吹,毕竟我也是才自学了几个月,能力有限所有爬的网站也不多,见识不够)。
我不知道你会到什么程度,反正我感觉大部分网站的信息都差不多,信息提取的过程也大同小异,会一个网站的爬法,就应该会很多
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-3-29 09:28:09 | 显示全部楼层    本楼为最佳答案   
老子最酷 发表于 2017-3-28 20:35
其实我还是个新手,只是现在用xpath可以爬下来固定的网站,但是我想做一个能够厉害一点的,比如就爬贴吧 ...

你说的爬贴吧的信息我爬过,用scrapy爬的,跟我爬LOL数据的思路基本一致,你可以看看我爬LOL的代码,我已经分享过了http://bbs.fishc.com/thread-84760-1-1.html
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-3-29 18:04:10 | 显示全部楼层
gopythoner 发表于 2017-3-29 09:28
你说的爬贴吧的信息我爬过,用scrapy爬的,跟我爬LOL数据的思路基本一致,你可以看看我爬LOL的代码,我已 ...

万分感谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-26 05:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表