| 
 | 
 
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册  
 
x
 
我在跟某个爬虫视频抄 如何 用scrapy 爬取 boss招聘网站 的岗位名称 和 职位描述。这个网站好象更新了,所以视频中老师的部分代码失效了。里面有一些xpath的路径,我做了修改。但是不知为啥,爬出来什么东西也没有,也没报错。 
 
求求路过的大神,帮忙看看,我都检查了一天,也不知哪出错了。下面是源码,我把整个工程也打包上传到百度网盘了。 
#16行,是爬取 岗位名称 
#10行,是爬取 岗位描述 
#18行,是岗位描述的详情页 
 
这只是半成品,我是一边看视频,一边打的。 
 
重点是 #10, #14 #18行的 XPATH 这几个我和视频老师的源码不一样,其它都是抄他的。 
 
 
- import scrapy
 
  
 
- class BossSpider(scrapy.Spider):
 
 -     name = 'boss'
 
 -     #allowed_domains = ['www.xxx.com']
 
 -     start_urls = ['https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=']
 
 -     
 
 -     def parse_detail(self,response):
 
 -         job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
 
 -         job_desc = ''.join(job_desc)
 
 -         print(job_desc)
 
 -     def parse(self, response):
 
 -         li_list = response.xpath('//*[@id="main"]/div/div[2]/ul/li')
 
 -         for li in li_list:
 
 -             job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first()
 
 -             print(job_name)
 
 -             detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="job-title"]/span[1]/a/@href').extract_first()
 
 -             yield scrapy.Request(detail_url, callback=self.parse_detail)    
 
 -     
 
  
  复制代码 
 
链接:https://pan.baidu.com/s/1G8eztmNmZD72RxBMgz-axQ  
提取码:1234  
看了下你的代码。代码运行没问题啊,有时候会得不到结果,是因为cookie失效了。影响页面响应内容的是这个cookie参数zp_stoken,如果你不懂js,自己可能没办法逆向js生成cookie参数。你可以百度,看看其他人的逆向分析。 
 
 
 |   
 
 
 
 |