萌新关于爬虫的简单问题
各位鱼油好,这个帖子没有代码,只想问两个概念性问题,谢谢。1. 我看到爬虫的作品分享里的代码框架主要有两种。
一种是定义主函数+各种分支小函数+if __name__ = "__main__"
一种是面向对象方法的,就是会有很多py文件,包括要用到__init__之类的。
现在我只会第一种,第二种明显比较高级。 请问她们的区别是什么以及优缺点?
2. 上面的第二种框架/方法是不是就是小甲鱼教程里的小爬爬scrapy?
3. 请问网络爬虫是不是并不是所有网页都可以爬?
我在爬国外网站时目前为止发现有两次我是无从下手的。
一次是一个购物网站,似乎商品的的一些信息是储存在它背后的一个加密的API里。
还有一次是另一个网站受Incapsula 保护。
网上也有一些其他人有同样的问题。是不是说明这些网站时没办法爬的,或者说很不容易爬? 1.单文件,适合小项目。多文件,适合大项目。没有高级与低级的区分。语法规范,逻辑清晰,算法合理,单文件也能做很多工作。比喻:独孤九剑用木剑也能纵横武林。
2.是。
3.requests直接爬不了的,得想办法逆向js获取数据,或直接用selenium模拟浏览器爬。 suchocolate 发表于 2021-12-15 13:15
1.单文件,适合小项目。多文件,适合大项目。没有高级与低级的区分。语法规范,逻辑清晰,算法合理,单文件 ...
谢谢,所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗?只是复杂和简单的区别? sayangrtg 发表于 2021-12-15 19:46
谢谢,所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗?只是复杂和简单的区别?
对的
页:
[1]