[已解决]萌新关于爬虫的简单问题

sayangrtg · 发表于 2021-12-15 12:16:14

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

各位鱼油好，这个帖子没有代码，只想问两个概念性问题，谢谢。
1. 我看到爬虫的作品分享里的代码框架主要有两种。
一种是定义主函数+各种分支小函数+if __name__ = "__main__"
一种是面向对象方法的，就是会有很多py文件，包括要用到__init__之类的。
现在我只会第一种，第二种明显比较高级。请问她们的区别是什么以及优缺点？

2. 上面的第二种框架/方法是不是就是小甲鱼教程里的小爬爬scrapy？

3. 请问网络爬虫是不是并不是所有网页都可以爬？
我在爬国外网站时目前为止发现有两次我是无从下手的。
一次是一个购物网站，似乎商品的的一些信息是储存在它背后的一个加密的API里。
还有一次是另一个网站受Incapsula 保护。
网上也有一些其他人有同样的问题。是不是说明这些网站时没办法爬的，或者说很不容易爬？

最佳答案

月排行榜 / 总排行榜

suchocolate

2021-12-15 13:15:10

1.单文件，适合小项目。多文件，适合大项目。没有高级与低级的区分。语法规范，逻辑清晰，算法合理，单文件也能做很多工作。比喻：独孤九剑用木剑也能纵横武林。
2.是。
3.requests直接爬不了的，得想办法逆向js获取数据，或直接用selenium模拟浏览器爬。

跳转到最佳答案楼层

suchocolate · 发表于 2021-12-15 13:15:10

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

1.单文件，适合小项目。多文件，适合大项目。没有高级与低级的区分。语法规范，逻辑清晰，算法合理，单文件也能做很多工作。比喻：独孤九剑用木剑也能纵横武林。
2.是。
3.requests直接爬不了的，得想办法逆向js获取数据，或直接用selenium模拟浏览器爬。

sayangrtg · 发表于 2021-12-15 19:46:32

suchocolate 发表于 2021-12-15 13:15
1.单文件，适合小项目。多文件，适合大项目。没有高级与低级的区分。语法规范，逻辑清晰，算法合理，单文件 ...

谢谢，所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗？只是复杂和简单的区别？

suchocolate · 发表于 2021-12-15 20:50:29

sayangrtg 发表于 2021-12-15 19:46
谢谢，所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗？只是复杂和简单的区别？

对的

账号		自动登录	找回密码
密码			立即注册

[已解决]萌新关于爬虫的简单问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块