鱼C论坛

 找回密码
 立即注册
查看: 1352|回复: 17

爬虫学习

[复制链接]
发表于 2020-5-19 17:30:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
试着自己来爬取淘宝,


url = 'https://s.taobao.com/search?q=%E5%A5%B3%E9%9E%8B&wq=%E5%A5%B3&source=suggest'

headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

response = requests.get(url=url,headers = headers).text

print(response)


返回来的结果 , 并不是 浏览器 查看源代码里面的内容。。。
这是为何。?

爬虫 除了requests   re      还得要会哪个模块 ??    求指点
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-19 17:32:32 From FishC Mobile | 显示全部楼层
淘宝网并不适合初学者练习爬爬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 17:33:51 | 显示全部楼层
1,selenium
2,scrapy(可选,我就没学多少)
3,bs4(可选)
4, XPath
5,淘宝反爬很严格的,最好拿别的网站练手
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-19 17:34:53 | 显示全部楼层
wp231957 发表于 2020-5-19 17:32
淘宝网并不适合初学者练习爬爬

返回来的结果 , 并不是 浏览器 查看源代码里面的内容  ;这是为什么? 没弄懂这个。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-19 17:35:26 | 显示全部楼层
qiuyouzhi 发表于 2020-5-19 17:33
1,selenium
2,scrapy(可选,我就没学多少)
3,bs4(可选)

返回来的结果 , 并不是 浏览器 查看源代码里面的内容  ;这是为什么? 没弄懂这个。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 17:35:46 From FishC Mobile | 显示全部楼层
maxliu06 发表于 2020-5-19 17:34
返回来的结果 , 并不是 浏览器 查看源代码里面的内容  ;这是为什么? 没弄懂这个。

这就是网站反爬的一部分
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 17:37:50 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-20 01:08 编辑

内容不一样可能被反爬,或者是网站是JS动态渲染后的网站

Selenium 可用访问网站并返回JS被渲染后的网站

数据提取主要有这些:

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

建议也学学:

爬虫多线程

如果对你有帮助,记得设置最佳哈~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 17:38:16 | 显示全部楼层
maxliu06 发表于 2020-5-19 17:35
返回来的结果 , 并不是 浏览器 查看源代码里面的内容  ;这是为什么? 没弄懂这个。

这就是网站的反爬呀
或许给你搞到登录界面去了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 17:42:48 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-20 01:09 编辑

审核一次性通过数条...重复了 我重新编辑掉
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 17:44:48 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-20 01:10 编辑

重复重新编辑
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 18:00:56 | 显示全部楼层
之前写过一个淘宝的小爬虫,你可以参考一下:https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码在这:https://github.com/CharlesPikachu/DecryptLogin
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 18:02:49 | 显示全部楼层
Charles未晞 发表于 2020-5-19 18:00
之前写过一个淘宝的小爬虫,你可以参考一下:https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码 ...

真正的大佬来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 18:35:31 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-20 01:08 编辑

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-19 18:45:55 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-20 01:10 编辑

重复重新编辑
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 19:42:24 | 显示全部楼层
配合教程视频效果更佳:
爬虫零基础教学
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-19 20:33:38 | 显示全部楼层
淘宝都是必须先要登录才能进行搜索的,不登录会直接跳到登录界面。
登录后它会存储一个cookie,用来判断登录。
所以你请求时也要把这个cookie带进去,才不会给你跳到登录界面。

解决方法:把网页登录后的cookie放到程序的header里即可。
先登录淘宝网,打开首页,右键检查,network,然后刷新网页,找到第一个请求,headers,在requests headers栏中找到cookie,复制进软件的header,如:
headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie':'XXXXXXXX'}
然后再次请求即可获取搜索信息
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2020-5-20 00:53:21 | 显示全部楼层
...频繁后,被审核一遍通过的结果...不是我的错吧...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 06:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表