爬虫学习
试着自己来爬取淘宝,url = 'https://s.taobao.com/search?q=%E5%A5%B3%E9%9E%8B&wq=%E5%A5%B3&source=suggest'
headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
response = requests.get(url=url,headers = headers).text
print(response)
返回来的结果 , 并不是 浏览器 查看源代码里面的内容。。。
这是为何。?
爬虫 除了requests re 还得要会哪个模块 ?? 求指点 淘宝网并不适合初学者练习爬爬 1,selenium
2,scrapy(可选,我就没学多少)
3,bs4(可选)
4, XPath
5,淘宝反爬很严格的,最好拿别的网站练手 wp231957 发表于 2020-5-19 17:32
淘宝网并不适合初学者练习爬爬
返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。 qiuyouzhi 发表于 2020-5-19 17:33
1,selenium
2,scrapy(可选,我就没学多少)
3,bs4(可选)
返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。 maxliu06 发表于 2020-5-19 17:34
返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。
这就是网站反爬的一部分 本帖最后由 Twilight6 于 2020-5-20 01:08 编辑
内容不一样可能被反爬,或者是网站是JS动态渲染后的网站
Selenium 可用访问网站并返回JS被渲染后的网站
数据提取主要有这些:
正则表达式
Beautiful Soup
XPath
JsonPath
PyQuery
Scrapy、Selenium 也可以提取数据
建议也学学:
爬虫多线程
如果对你有帮助,记得设置最佳哈~{:10_287:} maxliu06 发表于 2020-5-19 17:35
返回来的结果 , 并不是 浏览器 查看源代码里面的内容;这是为什么? 没弄懂这个。
这就是网站的反爬呀
或许给你搞到登录界面去了 本帖最后由 Twilight6 于 2020-5-20 01:09 编辑
审核一次性通过数条...重复了 我重新编辑掉 本帖最后由 Twilight6 于 2020-5-20 01:10 编辑
重复重新编辑 之前写过一个淘宝的小爬虫,你可以参考一下:https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码在这:https://github.com/CharlesPikachu/DecryptLogin
Charles未晞 发表于 2020-5-19 18:00
之前写过一个淘宝的小爬虫,你可以参考一下:https://mp.weixin.qq.com/s/NhK9eeWNXv_wPnolccRR-g
源代码 ...
真正的大佬来了{:10_275:} 本帖最后由 Twilight6 于 2020-5-20 01:08 编辑
本帖最后由 Twilight6 于 2020-5-20 01:10 编辑
重复重新编辑 配合教程视频效果更佳:
爬虫零基础教学 淘宝都是必须先要登录才能进行搜索的,不登录会直接跳到登录界面。
登录后它会存储一个cookie,用来判断登录。
所以你请求时也要把这个cookie带进去,才不会给你跳到登录界面。
解决方法:把网页登录后的cookie放到程序的header里即可。
先登录淘宝网,打开首页,右键检查,network,然后刷新网页,找到第一个请求,headers,在requests headers栏中找到cookie,复制进软件的header,如:
headers ={'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie':'XXXXXXXX'}
然后再次请求即可获取搜索信息 ...频繁后,被审核一遍通过的结果...{:10_245:}不是我的错吧...
页:
[1]