爬虫学习

maxliu06 · 发表于 2020-5-19 17:30:18

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

试着自己来爬取淘宝，

url = 'https://s.taobao.com/search?q=%E5%A5%B3%E9%9E%8B&wq=%E5%A5%B3&source=suggest'

headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

response = requests.get(url=url,headers = headers).text

print(response)

返回来的结果，并不是浏览器查看源代码里面的内容。。。
这是为何。？

爬虫除了requests re 还得要会哪个模块？？求指点

wp231957 · 发表于 2020-5-19 17:32:32

淘宝网并不适合初学者练习爬爬

qiuyouzhi · 发表于 2020-5-19 17:33:51

1，selenium
2，scrapy（可选，我就没学多少）
3，bs4(可选）
4, XPath
5，淘宝反爬很严格的，最好拿别的网站练手

maxliu06 · 发表于 2020-5-19 17:34:53

wp231957 发表于 2020-5-19 17:32
淘宝网并不适合初学者练习爬爬

返回来的结果，并不是浏览器查看源代码里面的内容；这是为什么？没弄懂这个。

maxliu06 · 发表于 2020-5-19 17:35:26

qiuyouzhi 发表于 2020-5-19 17:33
1，selenium
2，scrapy（可选，我就没学多少）
3，bs4(可选）

返回来的结果，并不是浏览器查看源代码里面的内容；这是为什么？没弄懂这个。

wp231957 · 发表于 2020-5-19 17:35:46

maxliu06 发表于 2020-5-19 17:34
返回来的结果，并不是浏览器查看源代码里面的内容；这是为什么？没弄懂这个。

这就是网站反爬的一部分

Twilight6 · 发表于 2020-5-19 17:37:50

本帖最后由 Twilight6 于 2020-5-20 01:08 编辑

内容不一样可能被反爬，或者是网站是JS动态渲染后的网站

Selenium 可用访问网站并返回JS被渲染后的网站

数据提取主要有这些：

正则表达式

 Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

建议也学学：

爬虫多线程

如果对你有帮助，记得设置最佳哈~

qiuyouzhi · 发表于 2020-5-19 17:38:16

maxliu06 发表于 2020-5-19 17:35
返回来的结果，并不是浏览器查看源代码里面的内容；这是为什么？没弄懂这个。

这就是网站的反爬呀
或许给你搞到登录界面去了

Twilight6 · 发表于 2020-5-19 17:42:48

本帖最后由 Twilight6 于 2020-5-20 01:09 编辑

审核一次性通过数条...重复了我重新编辑掉

Twilight6 · 发表于 2020-5-19 17:44:48

本帖最后由 Twilight6 于 2020-5-20 01:10 编辑

重复重新编辑

Charles未晞 · 发表于 2020-5-19 18:00:56

之前写过一个淘宝的小爬虫，你可以参考一下：https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码在这：https://github.com/CharlesPikachu/DecryptLogin

Twilight6 · 发表于 2020-5-19 18:02:49

Charles未晞发表于 2020-5-19 18:00
之前写过一个淘宝的小爬虫，你可以参考一下：https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码 ...

真正的大佬来了

Twilight6 · 发表于 2020-5-19 18:35:31

本帖最后由 Twilight6 于 2020-5-20 01:08 编辑

Twilight6 · 发表于 2020-5-19 18:45:55

本帖最后由 Twilight6 于 2020-5-20 01:10 编辑

重复重新编辑

Twilight6 · 发表于 2020-5-19 19:42:24

配合教程视频效果更佳：
爬虫零基础教学

悠悠2264 · 发表于 2020-5-19 20:33:38

淘宝都是必须先要登录才能进行搜索的，不登录会直接跳到登录界面。
登录后它会存储一个cookie，用来判断登录。
所以你请求时也要把这个cookie带进去，才不会给你跳到登录界面。

解决方法：把网页登录后的cookie放到程序的header里即可。
先登录淘宝网，打开首页，右键检查，network，然后刷新网页，找到第一个请求，headers，在requests headers栏中找到cookie，复制进软件的header，如：

headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie':'XXXXXXXX'}

复制代码

然后再次请求即可获取搜索信息

Twilight6 · 发表于 2020-5-20 00:53:21

...频繁后，被审核一遍通过的结果...

不是我的错吧...

账号		自动登录	找回密码
密码			立即注册