chinesestcx 发表于 2021-8-1 14:35:55

淘宝商品信息比价爬虫

        之前跟着Mooc嵩天老师的爬虫课程制作的一个静态页面爬虫,但是课程发布时间是几年前,淘宝页面和之前也不一样了,所以自己摸索了一下,参考了一些其他博客
加入了最新的cookie 利用http请求时伪造了User-Agent字段,可以短时间模仿人类欺骗淘宝网站访问页面信息,但是启动爬虫之前必须要获得 最新的cookie
        唯一美中不足的就是由于商品信息有时候太长,我设置的字符宽度在50以内,很多商品名称都轻松超过了70,所以在搜索一些比较热门的商品,搜索结果就完全乱了格式
而且由于西文字符和中文字符在每个字段(我设置展示了商品名称,价格,销量,店铺名,产地五个字段)都混用,我无法使用统一的格式确保信息都是整齐的。
        对于cookie的获得需要在浏览器里按 F12键,在头部请求头那里就可以获得一长串cookie
        希望大家积极讨论,给点批评建议       

        回复给出代码
        **** Hidden Message *****

小伤口 发表于 2021-8-2 20:38:41

向大佬学习!

basketmn 发表于 2021-8-2 22:11:00

学习下。。

不大不小甲鱼 发表于 2021-8-3 17:52:11

666

vmyth 发表于 2021-8-4 14:08:16

学习了

hornwong 发表于 2021-8-4 17:14:29

{:5_95:}

江南野外的狸 发表于 2021-8-4 17:38:12

{:5_90:}

Nate_2020 发表于 2021-8-5 13:17:43

{:5_109:}

老迈 发表于 2021-8-5 15:01:18

向大佬学习!

bill815 发表于 2021-10-18 17:59:49

111111111111111111111111111111111

ForGot_227 发表于 2021-10-18 20:50:41

{:5_110:}

tbapiw 发表于 2021-10-25 10:09:31

{:10_275:}

玉佩怀念 发表于 2022-6-6 15:10:40

学习
页: [1]
查看完整版本: 淘宝商品信息比价爬虫