鱼C论坛

 找回密码
 立即注册
查看: 1760|回复: 3

一些通用性的爬虫是怎么制作的呢?就是那种可以爬取多个网站的数据的。

[复制链接]
发表于 2019-8-23 10:27:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
一些通用性的爬虫是怎么做到的呢?就是那种可以爬取多个网站的数据的。

比如,我想做一个爬虫,对比淘宝和京东两个网站的产品信息。

以“3D打印机”为例,

淘宝的搜索网址:

https://s.taobao.com/search?q=%E ... 0190823&ie=utf8

其实将这些改成
https://s.taobao.com/search?q=3D打印机

也可以。

1.PNG

但是在京东,搜索网址是:

https://search.jd.com/Search?key ... 3e7b2797a63a8800ced

如果改成:

https://search.jd.com/Search?keyword=3D打印机

就没有产品数据了,如下图所示:

2.PNG
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-8-23 13:47:39 | 显示全部楼层
沙发!
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-8-23 14:38:48 | 显示全部楼层
本来我输入了一大段,后来我又删除了。

因为感觉这个问题没什么好讨论的,每个网站都是特定的,url特定,网站结构标签特定,要一个爬虫去爬取所有的,你还不是一样得老老实实在代码里把这些网站的xpath、css、正则等提取方法写好。要不然正巧,你要爬的多个网站结构正好也一样,那自然这一步就不用重复了。

可能你发现一个软件可以提取网页的表格,而且多个不同的网站都可以,少数不行。有可能那多个都是一样的静态页面,表格标签都是table tr  td标签层层嵌套,那几个不能提取的呢,可能别人用的ajax。

所以我想说,不要迷信这种假通用爬虫。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-23 21:17:44 | 显示全部楼层
空青 发表于 2019-8-23 14:38
本来我输入了一大段,后来我又删除了。

因为感觉这个问题没什么好讨论的,每个网站都是特定的,url特定 ...

https://www.sodu.cc/

http://www.docshare.org.cn/new.php

这种小说的搜索网站,大概是怎么做的啊?它们可以搜索多个网站,而且每个网站的url不完全相同
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-17 20:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表