关于初学scrapy框架保存问题

wongyusing · 发表于 2018-4-5 21:26:04

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 wongyusing 于 2018-10-14 19:10 编辑

代码如下：

# -*- coding: utf-8 -*-
import scrapy
from op.items import OpItem
import re
import os
from scrapy.http import Request
import requests
class MyspiderSpider(scrapy.Spider):
name = 'myspider'
#allowed_domains = ['http://www.zhaojianpu.com/liuxing/']
start_urls = ['http://www.zhaojianpu.com/liuxing//']
# 文件保存地址
base = r'/home/wongyusing/桌面/op/op/download/'
def parse(self, response):
items = []
pattern = r'<li><a href="(.*?)" target="_blank">(.*?)</a></li>'
mains = re.findall(pattern, response.text)
reg = '<font color="FF0000">(.*?)</font>'
#item['page_Name'] = '第' + re.findall(reg,response.text)[0] + '页'
#print(mains, page_Name)
for main in mains:
item = OpItem()
item['siteURL'] = main[0]
item['title'] = main[1]
item['page_Name'] = self.base + '第' + re.findall(reg, response.text)[0] + '页'
item['fileName'] = item['page_Name'] + '/' + item['title'] #6.os.path.exists(path)如果path存在，返回True；如果path不存在，返回False。
items.append(item)
for item in items: #创建文件夹
fileName=item['fileName']
if not os.path.exists(fileName):
os.makedirs(fileName)
# 6.os.path.exists(path)如果path存在，返回True
#用meta传入下一层
yield Request(url=item['siteURL'],meta={'item1':item},callback=self.parse_two)
def parse_two(self,response):
detailURL = response.xpath('//*[@id="Article"]/div[1]/img/@src').extract()
content = response.xpath('//*[@id="Article"]/div[1]/p[1]/text()').extract()

复制代码

问题如下：
1.我想让保存的时候是按（‘流行曲目’→→→第一页（页码数）→→→歌曲名（文件夹）→→→图片，简介）
的方式保存，需要在那个位置修改代码？（这个问题解决了）

2.该网站的排序是反转的，第二页的是305，第三页是304，以此类推到尾页是1，
该如何能让保存的时候是”305文件夹“对应第二页，”304“对应的内容是第三页呢？？（这个也解决了）

3.代码中的meta={'item1':item}是什么意思作用是什么？？（这个是我看别人写的，不太懂这个意思）
4.图片有两种类型，jpg格式，gif格式，scrapy内置的图片保存函数能用吗？？该怎么用？

5.为什么我在打印的时候，shell只返回两个内容？但经观察，每一页有60篇乐谱，如下图所示：

wongyusing · 发表于 2018-4-6 03:19:55

本帖最后由 wongyusing 于 2018-4-6 03:21 编辑

问题已解决，代码等我写好注释再放上来

wongyusing · 发表于 2018-4-6 13:01:03

完成了，
spider.py

# -*- coding: utf-8 -*-
import scrapy
from op.items import OpItem
import re
import os
from scrapy.http import Request
import requests
import time
class MyspiderSpider(scrapy.Spider):
name = 'myspider'
#allowed_domains = ['http://www.zhaojianpu.com/liuxing/']
start_urls = ['http://www.zhaojianpu.com/liuxing//']
# 文件保存路径
base = r'/home/wongyusing/桌面/op/op/download/'
def parse(self, response):
items = []
pattern = r'<li><a href="(.*?)" target="_blank">(.*?)</a></li>'
mains = re.findall(pattern, response.text)
reg = '<font color="FF0000">(.*?)</font>'#获取当前页，并用做文件夹名
for main in mains:
item = OpItem()
#获取乐谱的url
item['siteURL'] = main[0]
#获取标题
item['title'] = main[1]
# 获取当前页，并用做文件夹名，/home/wongyusing/桌面/op/op/download/第3页/
item['page_Name'] = self.base + '第' + re.findall(reg, response.text)[0] + '页'
#制作文件夹路径，“/home/wongyusing/桌面/op/op/download/第3页/爱了再说简谱图片”
item['fileName'] = item['page_Name'] + '/' + item['title'] #6.os.path.exists(path)如果path存在，返回True；如果path不存在，返回False。
items.append(item)
for item in items: #创建文件夹
fileName=item['fileName']
if not os.path.exists(fileName):
os.makedirs(fileName)#/home/wongyusing/桌面/op/op/download/第3页/爱了再说简谱图片
# 6.os.path.exists(path)如果path存在，返回True
#用meta传入下一层
yield Request(url=item['siteURL'],meta={'item1':item},callback=self.parse_two)
#获取乐谱数共18374篇乐谱
all_score = response.xpath('/html/body/div[7]/div/b[1]/text()').extract()[0]
#获取一页有多少篇乐谱
row = response.xpath('/html/body/div[7]/div/b[2]/text()').extract()[0]
max_page = int(all_score)//int(row)#地板除得出总页数
for pa in range(1,max_page+1):#拼接URL，回调上去继续获取乐谱url列表
page_url = 'http://www.zhaojianpu.com/liuxing/List_' + str(pa) + '.html'
yield Request(page_url, callback=self.parse)
def parse_two(self,response):
item = OpItem()
#获取图片的url
url_3 = response.xpath('//*[@id="Article"]/div[1]/img/@src').extract()[0]
#item2 = response.meta['item1']
suffix = url_3[-4:] #获取后缀，因为图片有两种格式.gif和.jpg格式
#print(url_3)
time.sleep(10)
item['detailURL'] = 'http://www.zhaojianpu.com' + response.xpath('//*[@id="Article"]/div[1]/img/@src').extract()[0]
item['content'] = response.xpath('//*[@id="Article"]/div[1]/p[1]/text()').extract()[0]
item2 = response.meta['item1']
item['path'] = item2['fileName'] + '/' + 'music' + suffix #生成绝对路径保存图片
item['path2'] = item2['fileName'] + '/' + '简介' + '.txt' #生成绝对路径保存简介
#print(item['path'])
yield item

复制代码

items.py

import scrapy
class OpItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
siteURL = scrapy.Field() # 首页中乐谱的URL
pageURL = scrapy.Field() #每一张图片入口URL
page_Name = scrapy.Field()#页码名字，用作保存
detailURL = scrapy.Field() #图片原图地址
content = scrapy.Field()#乐谱简介
title = scrapy.Field() #乐谱的标题
fileName = scrapy.Field() #文件夹名，每一个乐谱一个文件夹
path = scrapy.Field() #图片存储路径（绝对路径）
path2 = scrapy.Field()#简介的绝对路径

复制代码

pipe文件

import requests
import sys
from op.items import OpItem
class OpPipeline(object):
def process_item(self, item, spider):
detailURL = item['detailURL']
path = item['path']
image = requests.get(detailURL)
f = open(path, 'wb')
f.write(image.content)
f.close()
content = item['content']
filename_path = item['path2']
with open(filename_path, 'w', encoding='utf-8') as f:
f.write(content + "\n")
return item

复制代码

从4点钟运行到现在13点，没断过。

wongyusing · 发表于 2018-4-6 13:02:12

怎么把帖子设为已解决啊？？？？

账号		自动登录	找回密码
密码			立即注册

关于初学scrapy框架保存问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块