maxliu06 发表于 2020-5-19 17:30:18

爬虫学习

试着自己来爬取淘宝,


url = 'https://s.taobao.com/search?q=%E5%A5%B3%E9%9E%8B&wq=%E5%A5%B3&source=suggest'

headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

response = requests.get(url=url,headers = headers).text

print(response)


返回来的结果 , 并不是 浏览器 查看源代码里面的内容。。。
这是为何。?

爬虫 除了requests   re      还得要会哪个模块 ??    求指点

wp231957 发表于 2020-5-19 17:32:32

淘宝网并不适合初学者练习爬爬

qiuyouzhi 发表于 2020-5-19 17:33:51

1,selenium
2,scrapy(可选,我就没学多少)
3,bs4(可选)
4, XPath
5,淘宝反爬很严格的,最好拿别的网站练手

maxliu06 发表于 2020-5-19 17:34:53

wp231957 发表于 2020-5-19 17:32
淘宝网并不适合初学者练习爬爬

返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。

maxliu06 发表于 2020-5-19 17:35:26

qiuyouzhi 发表于 2020-5-19 17:33
1,selenium
2,scrapy(可选,我就没学多少)
3,bs4(可选)


返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。

wp231957 发表于 2020-5-19 17:35:46

maxliu06 发表于 2020-5-19 17:34
返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。

这就是网站反爬的一部分

Twilight6 发表于 2020-5-19 17:37:50

本帖最后由 Twilight6 于 2020-5-20 01:08 编辑

内容不一样可能被反爬,或者是网站是JS动态渲染后的网站

Selenium 可用访问网站并返回JS被渲染后的网站

数据提取主要有这些:

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

建议也学学:

爬虫多线程
如果对你有帮助,记得设置最佳哈~{:10_287:}

qiuyouzhi 发表于 2020-5-19 17:38:16

maxliu06 发表于 2020-5-19 17:35
返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。

这就是网站的反爬呀
或许给你搞到登录界面去了

Twilight6 发表于 2020-5-19 17:42:48

本帖最后由 Twilight6 于 2020-5-20 01:09 编辑

审核一次性通过数条...重复了 我重新编辑掉

Twilight6 发表于 2020-5-19 17:44:48

本帖最后由 Twilight6 于 2020-5-20 01:10 编辑

重复重新编辑

Charles未晞 发表于 2020-5-19 18:00:56

之前写过一个淘宝的小爬虫,你可以参考一下:https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码在这:https://github.com/CharlesPikachu/DecryptLogin

Twilight6 发表于 2020-5-19 18:02:49

Charles未晞 发表于 2020-5-19 18:00
之前写过一个淘宝的小爬虫,你可以参考一下:https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码 ...

真正的大佬来了{:10_275:}

Twilight6 发表于 2020-5-19 18:35:31

本帖最后由 Twilight6 于 2020-5-20 01:08 编辑

Twilight6 发表于 2020-5-19 18:45:55

本帖最后由 Twilight6 于 2020-5-20 01:10 编辑

重复重新编辑

Twilight6 发表于 2020-5-19 19:42:24

配合教程视频效果更佳:
爬虫零基础教学

悠悠2264 发表于 2020-5-19 20:33:38

淘宝都是必须先要登录才能进行搜索的,不登录会直接跳到登录界面。
登录后它会存储一个cookie,用来判断登录。
所以你请求时也要把这个cookie带进去,才不会给你跳到登录界面。

解决方法:把网页登录后的cookie放到程序的header里即可。
先登录淘宝网,打开首页,右键检查,network,然后刷新网页,找到第一个请求,headers,在requests headers栏中找到cookie,复制进软件的header,如:
headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie':'XXXXXXXX'}
然后再次请求即可获取搜索信息

Twilight6 发表于 2020-5-20 00:53:21

...频繁后,被审核一遍通过的结果...{:10_245:}不是我的错吧...
页: [1]
查看完整版本: 爬虫学习