|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
我在跟某个爬虫视频抄 如何 用scrapy 爬取 boss招聘网站 的岗位名称 和 职位描述。这个网站好象更新了,所以视频中老师的部分代码失效了。里面有一些xpath的路径,我做了修改。但是不知为啥,爬出来什么东西也没有,也没报错。
求求路过的大神,帮忙看看,我都检查了一天,也不知哪出错了。下面是源码,我把整个工程也打包上传到百度网盘了。
#16行,是爬取 岗位名称
#10行,是爬取 岗位描述
#18行,是岗位描述的详情页
这只是半成品,我是一边看视频,一边打的。
重点是 #10, #14 #18行的 XPATH 这几个我和视频老师的源码不一样,其它都是抄他的。
- import scrapy
- class BossSpider(scrapy.Spider):
- name = 'boss'
- #allowed_domains = ['www.xxx.com']
- start_urls = ['https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position=']
-
- def parse_detail(self,response):
- job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
- job_desc = ''.join(job_desc)
- print(job_desc)
- def parse(self, response):
- li_list = response.xpath('//*[@id="main"]/div/div[2]/ul/li')
- for li in li_list:
- job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first()
- print(job_name)
- detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="job-title"]/span[1]/a/@href').extract_first()
- yield scrapy.Request(detail_url, callback=self.parse_detail)
-
复制代码
链接:https://pan.baidu.com/s/1G8eztmNmZD72RxBMgz-axQ
提取码:1234
看了下你的代码。代码运行没问题啊,有时候会得不到结果,是因为cookie失效了。影响页面响应内容的是这个cookie参数zp_stoken,如果你不懂js,自己可能没办法逆向js生成cookie参数。你可以百度,看看其他人的逆向分析。
|
|