[已解决]请问怎么把代理ip的代码结合到scrapy爬虫代码中呢

Shyanne · 发表于 2017-4-4 16:40:46

您需要登录才可以下载或查看，没有账号？立即注册

x

这是代理ip的代码已经测试可用的

proxy_support = urllib.request.ProxyHandler({'http':'183.56.177.130:808'})
opener = urllib.request.build_opener(proxy_support)
opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(start_urls)
html = response.read().decode('utf-8')

复制代码

然后自己写的爬虫因为爬的频繁被禁止访问了...囧

目前只是想使用代理ip 然后继续去爬那个网站...以下是已经实现的爬虫代码

# -*- coding: utf-8 -*-
import scrapy
from lagou.items import LagouItem
from scrapy.http import Request
class LagouSpiderSpider(scrapy.Spider):
name = "lagou_spider"
allowed_domains = ["www.lagou.com"]
url2 = 'https://www.lagou.com/zhaopin/houduankaifa/'
start_urls = [str(url2)]+['1']
def parse(self,response):
sites = response.xpath('//*[@id="s_position_list"]/ul/li/div[1]')
for site in sites:
item = LagouItem()
item['position_name'] = site.xpath('div[1]/div[1]/a/h2/text()').extract()
item['addr'] = site.xpath('div[1]/div[1]/a/span/em/text()').extract()
item['company_name'] = site.xpath('div[2]/div[1]/a/text()').extract()
item['salary'] = site.xpath('div[1]/div[2]/div[1]/span/text()').extract()
exp = site.xpath('div[1]/div[2]/div[1]/text()').extract()[2].rstrip()
item['experience'] = exp
item['url'] = site.xpath('div[1]/div[1]/a/@href').extract()
for url in response.xpath('//*[@id="s_position_list"]/ul/li/div[1]/div[1]/div[1]/a/@href').extract():
yield Request(url,meta={'item':item},callback=self.parse2)
urls = site.xpath('//*[@id="order"]/li/div[4]/a[2]/@href').extract()
for li in urls:
yield Request(li, callback = self.parse)
def parse2(self,response):
item = response.meta['item']
item['desc'] = response.xpath('//*[@id="job_detail"]/dd[2]/div/p').extract()
yield item

复制代码

就是不太清楚要将两个代码结合到一块的时候那个代理ip代码的位置应该放在哪里呢...好像放哪都出错...求指导

最佳答案

lumber2388779

2017-4-5 09:59:18

http://brucedone.com/archives/88
参考下用这个亲测可用
只需要将里面把代理服务器这一段修改一下

复制代码

把你的代理IP加进去就可以了

～风介～ · 发表于 2017-4-4 21:31:32

试试random.choice?

lumber2388779 · 发表于 2017-4-5 09:59:18

http://brucedone.com/archives/88
参考下用这个亲测可用
只需要将里面把代理服务器这一段修改一下

复制代码

把你的代理IP加进去就可以了

Shyanne · 发表于 2017-4-5 13:11:06

lumber2388779 发表于 2017-4-5 09:59
http://brucedone.com/archives/88
参考下用这个亲测可用
只需要将里面把代理服务器这一段修改一下

你好请问添加后的代码这个样子对吗

def process_request(self, request, spider):
ua = random.choice(settings.get('USER_AGENT_LIST'))
spider.logger.info(msg='now entring download midware')
if ua:
request.headers['User-Agent'] = ua
# Add desired logging message here.
proxy_support = urllib.request.ProxyHandler({'http':'183.56.177.130:808'})
opener = urllib.request.build_opener(proxy_support)
opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36')]
urllib.request.install_opener(opener)
spider.logger.info(
u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request)
)
pass

复制代码

我改好之后单独运行了一下什么反应也没有也没有报错这样是配置成功了吗...

lumber2388779 · 发表于 2017-4-5 13:50:51

Shyanne 发表于 2017-4-5 13:11
你好请问添加后的代码这个样子对吗

你按照我发给你的帖子步骤做了吗？那里面才是详细步骤

Shyanne · 发表于 2017-4-5 13:53:27

lumber2388779 发表于 2017-4-5 09:59
http://brucedone.com/archives/88
参考下用这个亲测可用
只需要将里面把代理服务器这一段修改一下

啊我爬出来了谢谢谢谢

Shyanne · 发表于 2017-4-5 13:54:14

～风介～发表于 2017-4-4 21:31
试试random.choice?

恩恩谢谢

按照楼下的方法运行成功了的

Shyanne · 发表于 2017-4-5 13:55:30

lumber2388779 发表于 2017-4-5 13:50
你按照我发给你的帖子步骤做了吗？那里面才是详细步骤

做了的刚刚出错因为没把那个中间件的路径给填对现在好了

lumber2388779 · 发表于 2017-4-5 13:58:34

Shyanne 发表于 2017-4-5 13:55
做了的刚刚出错因为没把那个中间件的路径给填对现在好了

那就行了

账号		自动登录	找回密码
密码			立即注册