鱼C论坛

 找回密码
 立即注册
查看: 3810|回复: 23

[作品展示] 学了一个多月python了,终于有能拿得出手的作品了

[复制链接]
发表于 2018-11-8 23:44:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
历时一个月零10天,功夫不负有心人

用Scrapy框架写的爬取淘宝商品的爬虫,开放搜索哦

爬取的商品名有英文有中文,不知道怎么把中文提取出来

大神勿喷

  1. # -*- coding: utf-8 -*-


  2. import scrapy
  3. import json
  4. from Taobao.items import TaobaoItem
  5. # url编码
  6. from urllib.parse import quote
  7. # url解码
  8. from urllib.parse import unquote


  9. class TaobaoSpider(scrapy.Spider):
  10.     name = 'taobao'
  11.     # allowed_domains = ['taobao.com/']
  12.     page = input('请输入打印页数:')
  13.     Quote = input('请输入要搜索的商品名')
  14.     start_urls = ['https://ai.taobao.com/search/getItem.htm?_tb_token_=e3d450b1e33e&__ajax__=1&pid=mm_33793785_3431230_471812702&unid=&clk1=&page={}&pageSize=60&pvid=200_11.224.194.119_358_1541678031255&squareFlag=&sourceId=search&ppathName=&supportCod=&city=&ppath=&dc12=&pageNav=false&itemAssurance=&fcatName=&price=&cat=&from=&tmall=&key={}&fcat=&ppage=0&debug=false&maxPageSize=200&sort=&exchange7=&custAssurance=&postFree=&npx=50&location='.format(int(page),quote(Quote,'utf-8'))]
  15.     a = 1



  16.     def parse(self, response):
  17.         js = json.loads(response.body)['result']['auction']

  18.         f = open('{}.csv'.format(self.Quote), 'w', encoding='utf-8')
  19.         f.write("商品名,价格,店名\n")

  20.         for text in js:
  21.             dict = {
  22.                 'name' : text['description'],
  23.                 'nick' : text['nick'],
  24.                 'realPrice' : text['realPrice'],
  25.             }

  26.             f.write("{name},{realPrice},{nick}\n".format(**dict))

  27.             origPicUrl = 'https:' + text['origPicUrl']
  28.             item = TaobaoItem()
  29.             item['origPicUrl'] = origPicUrl

  30.             yield item

  31.         f.close()

  32.         if self.page != '1':
  33.             print('=' * 40 + '第' + self.page + '页下载完毕' + '=' * 40)

  34.         if self.page != '1':
  35.             for n in range(2,int(self.page)):
  36.                 yield scrapy.Request('https://ai.taobao.com/search/getItem.htm?_tb_token_=e3d450b1e33e&__ajax__=1&pid=mm_33793785_3431230_471812702&unid=&clk1=&page={}&pageSize=60&pvid=200_11.224.194.119_358_1541678031255&squareFlag=&sourceId=search&ppathName=&supportCod=&city=&ppath=&dc12=&pageNav=false&itemAssurance=&fcatName=&price=&cat=&from=&tmall=&key=python%E7%BC%96%E7%A8%8B%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E5%AE%9E%E6%88%98&fcat=&ppage=0&debug=false&maxPageSize=200&sort=&exchange7=&custAssurance=&postFree=&npx=50&location='.format(n),self.parse)
复制代码


X1C4B)EY40SWE7V12X79(}7.png
[(L[HU0MAJ9[Y_PQ7{L3G_A.png

评分

参与人数 1荣誉 +3 鱼币 +5 收起 理由
~风介~ + 3 + 5 无条件支持楼主!

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-11-9 07:24:58 From FishC Mobile | 显示全部楼层
不知道怎么把字符串中的中文提取出来,有的商品名有英文有的没英文,不会提取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-9 07:52:24 From FishC Mobile | 显示全部楼层
本帖最后由 月光沙漠 于 2018-11-9 07:53 编辑

好奇为何爬的商品是这个,还有一个胖次的表吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-9 08:42:58 From FishC Mobile | 显示全部楼层
月光沙漠 发表于 2018-11-9 07:52
好奇为何爬的商品是这个,还有一个胖次的表吧

为了吸引眼球
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-9 08:53:22 | 显示全部楼层
这是一只蝗虫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-9 08:58:34 From FishC Mobile | 显示全部楼层
幽梦三影 发表于 2018-11-9 08:53
这是一只蝗虫

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-9 12:06:51 | 显示全部楼层
你选择爬这些店铺,应该爬图片,不应该是文字。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2018-11-9 14:10:17 | 显示全部楼层
过来顶一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-11 16:50:05 | 显示全部楼层
6666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-11 19:37:45 | 显示全部楼层
感觉你用requests模块,效果会更好……
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-11 20:14:55 | 显示全部楼层
零基础  学 python ?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-12 17:41:46 | 显示全部楼层

蝗虫,666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-14 00:27:03 | 显示全部楼层
13572044595 发表于 2018-11-11 20:14
零基础  学 python ?

对啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 09:44:49 | 显示全部楼层
同样是学一个月,咋就差距这么大呢,我现在才看到函数那里
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 14:40:56 | 显示全部楼层
且看我一个月后!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 15:08:15 | 显示全部楼层
加油加油
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 16:12:49 | 显示全部楼层
lz   能撑多久啊?  给你个有难度的题目:爬取价格 、 打折优惠、优惠时间....   这个就比现在做的能好玩哦 能玩一年
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 16:14:07 | 显示全部楼层
地表最强微商 发表于 2018-11-14 09:44
同样是学一个月,咋就差距这么大呢,我现在才看到函数那里

lz还不是vip,重点!!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 16:40:46 | 显示全部楼层
cupbbboom 发表于 2018-11-14 16:14
lz还不是vip,重点!!!

你的补刀很nice,你可以竞选年度最佳补刀手称号
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-14 18:15:58 | 显示全部楼层
刺……刺激
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 06:25

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表