|
发表于 2017-3-6 11:20:50
|
显示全部楼层
- from scrapy.pipelines.images import ImagesPipeline
- from scrapy.exceptions import DropItem
- from scrapy import Request
- class MmjpgPipeline(ImagesPipeline):
- def get_media_requests(self, item, info):
- for image_url in item['image_url']:
- yield Request(image_url)
- def item_completed(self, result, item, info):
- image_paths = [x['path'] for ok, x in result if ok]
- if not image_paths:
- raise DropItem('图片未下载好 %s' % image_paths)
- 这一段是我用的下载图片的piplines的代码,给你参考参考。然后setting里面也有个设置,在scrapy的官方文档里面有写,那个基本就是照抄。
- 文字部分,在spider里面卸载parse里面写就可以了。
- 但是如果你想直接把两者组合起来,那我就不知道了。
复制代码 |
|