淘宝商品信息比价爬虫
之前跟着Mooc嵩天老师的爬虫课程制作的一个静态页面爬虫,但是课程发布时间是几年前,淘宝页面和之前也不一样了,所以自己摸索了一下,参考了一些其他博客加入了最新的cookie 利用http请求时伪造了User-Agent字段,可以短时间模仿人类欺骗淘宝网站访问页面信息,但是启动爬虫之前必须要获得 最新的cookie
唯一美中不足的就是由于商品信息有时候太长,我设置的字符宽度在50以内,很多商品名称都轻松超过了70,所以在搜索一些比较热门的商品,搜索结果就完全乱了格式
而且由于西文字符和中文字符在每个字段(我设置展示了商品名称,价格,销量,店铺名,产地五个字段)都混用,我无法使用统一的格式确保信息都是整齐的。
对于cookie的获得需要在浏览器里按 F12键,在头部请求头那里就可以获得一长串cookie
希望大家积极讨论,给点批评建议
回复给出代码
**** Hidden Message ***** 向大佬学习! 学习下。。 666 学习了 {:5_95:} {:5_90:} {:5_109:} 向大佬学习! 111111111111111111111111111111111 {:5_110:} {:10_275:} 学习
页:
[1]