[已解决]scrapy下载文件的问题

小强工作室 · 发表于 2018-10-19 09:30:48

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由小强工作室于 2018-10-19 09:37 编辑

spider的代码:
from scrapy.spiders import CrawlSpider
from beikewang.items import BeikewangItem
from scrapy.http import Request
from selenium import webdriver
import time
browser=webdriver.Chrome()
browser.maximize_window()
class beikewang(CrawlSpider):
name = "beikewang"#项目名称
start_urls=["http://bk.cooco.net.cn/tag-yinianjiyuwenshiti-2/"]#初始网址
def parse(self, response):
      infos=response.xpath("//div[@class='fontsLeft']//li")#获取大标签
      for info in infos:
         urls=info.xpath(".//strong/a/@href").extract()[0]#获取2层网址
         yield Request(urls,self.parse2)
def parse2(self,response):
      item=BeikewangItem()#初始化
      item["request_url"]=response.xpath("//div[@class='mbButton']/a[1]/@href").extract()[0]#获得三层网址
      yield Request(item["request_url"],self.parse3)
def parse3(self,response):
      browser.get(response.url)#模拟器获得url
      browser.implicitly_wait(30)#延时等待
      browser.find_element_by_xpath("//div[@class='downurl']//img").click()#点击下载按钮
      time.sleep(5)

item代码:import scrapy
class BeikewangItem(scrapy.Item):       request_url= scrapy.Field()

求助问题:我不想用selenium模块，想用scrapy本身自带的下载文件类“FilesPipeline”，该如何使用？（最好有管道文件的源码）

最佳答案

月排行榜 / 总排行榜

wongyusing

2018-10-19 10:40:02

你的思路错了。
我观察了一下url的变化。
如下

base_url = 'http://bk.cooco.net.cn/tag-yinianjiyuwenshiti-2/'
utl_page = 'http://bk.cooco.net.cn/down-shiti-544714.html'
download_page = 'http://bk.cooco.net.cn/d-shiti-544714.html'
download_link = 'http://bk.cooco.net.cn/ddetail-shiti-544714.html'

复制代码

不难发现，你只需要在你给出的第一个链接中找到544714这些关键地方。
简单的字符串拼接就行了
采取selenium模块，循环get就行了。
不需要刻意用scrapy去爬取。
爬虫框架没有特殊需求不需要刻意去用。

跳转到最佳答案楼层

wongyusing · 发表于 2018-10-19 10:40:02

这个最佳答案由 wongyusing 给出，感谢 wongyusing 的回答。

单击隐藏图章

你的思路错了。
我观察了一下url的变化。
如下

base_url = 'http://bk.cooco.net.cn/tag-yinianjiyuwenshiti-2/'
utl_page = 'http://bk.cooco.net.cn/down-shiti-544714.html'
download_page = 'http://bk.cooco.net.cn/d-shiti-544714.html'
download_link = 'http://bk.cooco.net.cn/ddetail-shiti-544714.html'

复制代码

不难发现，你只需要在你给出的第一个链接中找到544714这些关键地方。
简单的字符串拼接就行了
采取selenium模块，循环get就行了。
不需要刻意用scrapy去爬取。
爬虫框架没有特殊需求不需要刻意去用。

小强工作室 · 发表于 2018-10-19 11:33:36

wongyusing 发表于 2018-10-19 10:40
你的思路错了。
我观察了一下url的变化。
如下

嗯，思路豁然清晰，非常感谢大神指点

账号		自动登录	找回密码
密码			立即注册

[已解决]scrapy下载文件的问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块