|
|
发表于 2017-3-29 09:25:11
|
显示全部楼层
网站什么类型我不知道你们怎么划分的
我只对信息的存在方式有个简单的划分
第一种最简单,就是静态网页,而且就是可以直接用requests请求得到全部信息的那种,这种没什么难度,只需要简单看一下自己要的信息在哪些标签下就行
第二种是在第一种的基础上的,也是静态网页,但是需要使用POST或者GET提交一些必要的信息,比如cookie之类的才能够请求到真实的网页信息,这种网页的重点在于分析请求所需参数是怎么来的,能不能自己构造一个,剩下的就跟第一种一样了
第三种,JS加载的信息,其实这种信息我最喜欢,因为JS加载的信息基本都是json格式的信息,提取的时候比较容易,这种网页信息的重点在于抓包(大部分使用浏览器自带的就行)找到包含信息的URL,找到之后就是解析JSON信息了,这个挺简单的
第四种,同样的加载出来的信息,但是跟第三种不同,无法再一次请求中获取完整的信息,这种网页需要你操作浏览器慢慢加载出来的。这种信息就必须使用爬虫神器selenium了,不过这种网页比较少,而且selenium速度太慢了,能不用就不用。
以上四种是我爬了各种网站信息所遇到的情况,暂时没有发现怕不了的网站(这句话不是在吹,毕竟我也是才自学了几个月,能力有限所有爬的网站也不多,见识不够)。
我不知道你会到什么程度,反正我感觉大部分网站的信息都差不多,信息提取的过程也大同小异,会一个网站的爬法,就应该会很多 |
|