萌新关于爬虫的简单问题,Python交流,编程语言专区,鱼C论坛

sayangrtg 发表于 2021-12-15 12:16:14

萌新关于爬虫的简单问题

各位鱼油好，这个帖子没有代码，只想问两个概念性问题，谢谢。
1. 我看到爬虫的作品分享里的代码框架主要有两种。
一种是定义主函数+各种分支小函数+if __name__ = "__main__"
一种是面向对象方法的，就是会有很多py文件，包括要用到__init__之类的。
现在我只会第一种，第二种明显比较高级。请问她们的区别是什么以及优缺点？

2. 上面的第二种框架/方法是不是就是小甲鱼教程里的小爬爬scrapy？

3. 请问网络爬虫是不是并不是所有网页都可以爬？
我在爬国外网站时目前为止发现有两次我是无从下手的。
一次是一个购物网站，似乎商品的的一些信息是储存在它背后的一个加密的API里。
还有一次是另一个网站受Incapsula 保护。
网上也有一些其他人有同样的问题。是不是说明这些网站时没办法爬的，或者说很不容易爬？

suchocolate 发表于 2021-12-15 13:15:10

1.单文件，适合小项目。多文件，适合大项目。没有高级与低级的区分。语法规范，逻辑清晰，算法合理，单文件也能做很多工作。比喻：独孤九剑用木剑也能纵横武林。
2.是。
3.requests直接爬不了的，得想办法逆向js获取数据，或直接用selenium模拟浏览器爬。

sayangrtg 发表于 2021-12-15 19:46:32

suchocolate 发表于 2021-12-15 13:15
1.单文件，适合小项目。多文件，适合大项目。没有高级与低级的区分。语法规范，逻辑清晰，算法合理，单文件 ...

谢谢，所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗？只是复杂和简单的区别？

suchocolate 发表于 2021-12-15 20:50:29

sayangrtg 发表于 2021-12-15 19:46
谢谢，所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗？只是复杂和简单的区别？

对的

页: [1]

鱼C论坛's Archiver

萌新关于爬虫的简单问题