鱼C论坛

 找回密码
 立即注册
查看: 228|回复: 6

[已解决]爬虫是什么?

[复制链接]
发表于 2024-7-31 09:09:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
逛论坛有时候能看见什么网络爬虫什么什么的,爬虫有什么用呢?
最佳答案
2024-8-1 17:44:33

爬虫,从名称上看,会爬的虫,那么没错,我们应该就会想到蜘蛛

你可以理解为,蜘蛛在编织的网上爬,而爬虫也一样,是在一个名为互联网的 大 "网" 上 "爬"

爬,其实就是爬取数据信息,那和人为手动有啥区别呢?

实际上,我们自己浏览一个网站,然后把网站的资源 又或者文本 下载或拷贝到自己的电脑上,这个过程就能称为 "爬数据" 了

只不过,人为手动速度太慢了,所以我们使用了代码来进行,爬虫相当于就是代码进行网上的资源收集或下载

其实各种搜索引擎就是最常见的爬虫,它在互联网上爬取收录大量网站,以至于你输入关键字,就能让搜索引擎帮你快速的匹配到你想要的资源

那有什么用呢?

比如你正好要搞AI大模型,需要大量某个方向,某个领域的数据

这时候就能用爬虫,去互联网进行爬取大量文章数据,然后通过数据清洗,转换成大模型可以训练的语料给模型进行训练

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-7-31 09:10:15 | 显示全部楼层
哈哈,爬虫可不是我们生活中那种三只脚的生物,而是计算机世界中的“网络爬虫”。想象一下,它就像一个勤劳的小机器人,在互联网上四处游荡,寻找和收集有用的信息。

网络爬虫的主要任务就是访问网站,获取页面上的内容,然后把它们整理成有用的数据。比如,搜索引擎(如百度、谷歌)就是靠爬虫来抓取网页的,让我们可以轻松地找到想要的信息。

那么爬虫有什么用呢?可以总结为以下几点:

1. **信息汇总**:爬虫可以从不同的网站上收集数据,帮助我们了解某个主题的全貌,像是网络上的“信息搬运工”。
   
2. **数据分析**:企业和研究机构可以利用爬虫获取市场数据、用户评价等,做出更加明智的决策,简直就是数据界的“侦探”!

3. **监控变化**:爬虫还能够定期访问某个网页,检查信息是否更新,比如价格变动、新闻发布等,帮助我们“盯紧”重要信息。

4. **SEO优化**:通过分析竞争对手的网站数据,企业可以改善自己的网站表现,吸引更多的访客,简直是商战中的“秘密武器”!

后面写着“禁止爬虫”的网站,就像是在门口竖了个“大白兔,请勿打扰”的牌子,所以绝对要遵守网络礼仪哦!所以,下次看到爬虫这个词时,可以想象一只在网上跑来跑去的小精灵,努力为我们搜罗好料!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-7-31 09:37:04 | 显示全部楼层
上别人家拿数据(大概率是非授权)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-7-31 09:44:19 | 显示全部楼层
网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。

总之,你学了python自然就明白了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2024-8-1 15:23:52 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-8-1 17:44:33 | 显示全部楼层    本楼为最佳答案   

爬虫,从名称上看,会爬的虫,那么没错,我们应该就会想到蜘蛛

你可以理解为,蜘蛛在编织的网上爬,而爬虫也一样,是在一个名为互联网的 大 "网" 上 "爬"

爬,其实就是爬取数据信息,那和人为手动有啥区别呢?

实际上,我们自己浏览一个网站,然后把网站的资源 又或者文本 下载或拷贝到自己的电脑上,这个过程就能称为 "爬数据" 了

只不过,人为手动速度太慢了,所以我们使用了代码来进行,爬虫相当于就是代码进行网上的资源收集或下载

其实各种搜索引擎就是最常见的爬虫,它在互联网上爬取收录大量网站,以至于你输入关键字,就能让搜索引擎帮你快速的匹配到你想要的资源

那有什么用呢?

比如你正好要搞AI大模型,需要大量某个方向,某个领域的数据

这时候就能用爬虫,去互联网进行爬取大量文章数据,然后通过数据清洗,转换成大模型可以训练的语料给模型进行训练

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2024-8-2 09:03:56 | 显示全部楼层
我学爬虫就是为了搞钱,能爬虫 爬取的数据越多,赚的钱越多,因为有些网站不想让爬虫爬取数据,就会给数据进行加密,也称为反爬,你能突破的反爬技术越强 === 能拿到的薪资越高
结论:我能够爬取的数据越多,赚钱越多
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-23 20:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表