鱼C论坛

 找回密码
 立即注册
查看: 1180|回复: 3

[已解决]萌新关于爬虫的简单问题

[复制链接]
发表于 2021-12-15 12:16:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
各位鱼油好,这个帖子没有代码,只想问两个概念性问题,谢谢。
1. 我看到爬虫的作品分享里的代码框架主要有两种。
一种是定义主函数+各种分支小函数+if __name__ = "__main__"
一种是面向对象方法的,就是会有很多py文件,包括要用到__init__之类的。
现在我只会第一种,第二种明显比较高级。 请问她们的区别是什么以及优缺点?

2. 上面的第二种框架/方法是不是就是小甲鱼教程里的小爬爬scrapy?

3. 请问网络爬虫是不是并不是所有网页都可以爬?
我在爬国外网站时目前为止发现有两次我是无从下手的。
一次是一个购物网站,似乎商品的的一些信息是储存在它背后的一个加密的API里。
还有一次是另一个网站受Incapsula 保护。
网上也有一些其他人有同样的问题。是不是说明这些网站时没办法爬的,或者说很不容易爬?
最佳答案
2021-12-15 13:15:10
1.单文件,适合小项目。多文件,适合大项目。没有高级与低级的区分。语法规范,逻辑清晰,算法合理,单文件也能做很多工作。比喻:独孤九剑用木剑也能纵横武林。
2.是。
3.requests直接爬不了的,得想办法逆向js获取数据,或直接用selenium模拟浏览器爬。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-12-15 13:15:10 | 显示全部楼层    本楼为最佳答案   
1.单文件,适合小项目。多文件,适合大项目。没有高级与低级的区分。语法规范,逻辑清晰,算法合理,单文件也能做很多工作。比喻:独孤九剑用木剑也能纵横武林。
2.是。
3.requests直接爬不了的,得想办法逆向js获取数据,或直接用selenium模拟浏览器爬。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-12-15 19:46:32 From FishC Mobile | 显示全部楼层
suchocolate 发表于 2021-12-15 13:15
1.单文件,适合小项目。多文件,适合大项目。没有高级与低级的区分。语法规范,逻辑清晰,算法合理,单文件 ...

谢谢,所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗?只是复杂和简单的区别?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-15 20:50:29 | 显示全部楼层
sayangrtg 发表于 2021-12-15 19:46
谢谢,所以所有网站只要是正常浏览器能看到的信息都是有方法爬的是吗?只是复杂和简单的区别?

对的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 17:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表