from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
from scrapy import Request
class MmjpgPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
for image_url in item['image_url']:
yield Request(image_url)
def item_completed(self, result, item, info):
image_paths = [x['path'] for ok, x in result if ok]
if not image_paths:
raise DropItem('图片未下载好 %s' % image_paths)
这一段是我用的下载图片的piplines的代码,给你参考参考。然后setting里面也有个设置,在scrapy的官方文档里面有写,那个基本就是照抄。
文字部分,在spider里面卸载parse里面写就可以了。
但是如果你想直接把两者组合起来,那我就不知道了。
|