一些通用性的爬虫是怎么制作的呢？就是那种可以爬取多个网站的数据的。

wyft5t5 · 发表于 2019-8-23 10:27:08

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

一些通用性的爬虫是怎么做到的呢？就是那种可以爬取多个网站的数据的。

比如，我想做一个爬虫，对比淘宝和京东两个网站的产品信息。

以“3D打印机”为例，

淘宝的搜索网址：

https://s.taobao.com/search?q=%E ... 0190823&ie=utf8

其实将这些改成
https://s.taobao.com/search?q=3D打印机

也可以。

但是在京东，搜索网址是：

https://search.jd.com/Search?key ... 3e7b2797a63a8800ced

如果改成：

https://search.jd.com/Search?keyword=3D打印机

就没有产品数据了，如下图所示：

_2_ · 发表于 2019-8-23 13:47:39

沙发！

空青 · 发表于 2019-8-23 14:38:48

本来我输入了一大段，后来我又删除了。

因为感觉这个问题没什么好讨论的，每个网站都是特定的，url特定，网站结构标签特定，要一个爬虫去爬取所有的，你还不是一样得老老实实在代码里把这些网站的xpath、css、正则等提取方法写好。要不然正巧，你要爬的多个网站结构正好也一样，那自然这一步就不用重复了。

可能你发现一个软件可以提取网页的表格，而且多个不同的网站都可以，少数不行。有可能那多个都是一样的静态页面，表格标签都是table tr td标签层层嵌套，那几个不能提取的呢，可能别人用的ajax。

所以我想说，不要迷信这种假通用爬虫。

wyft5t5 · 发表于 2019-8-23 21:17:44

空青发表于 2019-8-23 14:38
本来我输入了一大段，后来我又删除了。

因为感觉这个问题没什么好讨论的，每个网站都是特定的，url特定 ...

https://www.sodu.cc/

http://www.docshare.org.cn/new.php

这种小说的搜索网站，大概是怎么做的啊？它们可以搜索多个网站，而且每个网站的url不完全相同

账号		自动登录	找回密码
密码			立即注册