马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 十月故里 于 2020-5-6 18:39 编辑
最近看完崔庆才《网络爬虫开发实战》一书,对于里面的代理池搭建非常感兴趣,学习完迫不及待给大家分享下,里面的源码部分借鉴了书中的内容,部分内容由于有些库没装(外面的资源,下不来),有些是实测过后,部分网站代码结构变了,只能利用自己学过的东西魔改了下,还好折腾一晚上弄出来了~~~~
废话不多说,这一个系列大概有三部分:
下面的内容全部是在python3.8.2的版本搭建的,用到的库主要有pyquery,requests, sqlite3, threading
现在进入主题,由于本人五行缺钱,于是目标都放在来免费的代理网站上,这里主要对http://www.66ip.cn/,http://www.goubanjia.com/,https://www.kuaidaili.com/free/inha/三个代理网站进行爬取
在爬取网站之前,为了日后方便添加其他代理网站的爬取代码块,这里利用继承type的基类来动态添加类属性(这部分内容我也还是一知半解,想深究的童鞋可以百度metaclass,然后有很多大佬对这个内容进行的讲解)
首先我们看看代码class ProxyMetaclass(type):
def __new__(cls, name, bases, attrs):
count=0
attrs['__CrawlFunc__']=[]
for k,v in attrs.items():
#把爬取的方法名动态添加到crawlfunc集合中,用于遍历回调
if 'crawl_' in k:
attrs['__CrawlFunc__'].append(k)
count +=1
attrs['__CrawlFuncCount__']=count
return type.__new__(cls, name, bases, attrs)
在继承type类后,我们调用attrs属性,通过检索后面定义的爬取方法的名字,只要里面出现’crawl_‘这样的结构,就动态的添加到'__CrawlFunc__'中,方便接下来的第二部分能够动态的调用我们提前写好的爬取网站的代码,也便于日后能进行简单的添加其他爬取代码后,不需要修改主体内容即可自动爬取(不明白的童鞋可以去看第二部分的内容,就应该理解为什么这么设置了)
接下来就是重头戏,搭建我们的爬取网站的代码,废话不多说,先看代码from pyquery import PyQuery as pq
import requests
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
def get_page(url):
html=requests.get(url,headers=headers).text
return html
class Crawler(object, metaclass=ProxyMetaclass):
def get_proxies(self,callback):
proxies=[]
#eval用来执行字符串表达式,并返回表达式的值
for proxy in eval("self.{}()".format(callback)):
print('成功获取到代理',proxy)
proxies.append(proxy)
return proxies
def crawl_daili66(self,page_count=3):
start_url='http://www.66ip.cn/{}.html'
urls=[start_url.format(page) for page in range(page_count,page_count+4)]
for url in urls:
print('Crawling',url)
html = get_page(url)
if html:
doc=pq(html)
# main > div > div:nth-child(1) > table > tbody > tr:nth-child(2)
#gt选取索引大于0的节点
trs=doc('.containerbox table tr:gt(0)').items()
for tr in trs:
# main > div > div:nth-child(1) > table > tbody > tr:nth-child(2) > td:nth-child(1)
ip = tr.find('td:nth-child(1)').text()
# main > div > div:nth-child(1) > table > tbody > tr:nth-child(2) > td:nth-child(2)
port=tr.find('td:nth-child(2)').text()
yield ':'.join([ip,port])
def crawl_goubanjia(self):
start_url='http://www.goubanjia.com/'
html=get_page(start_url)
print('Crawling', start_url)
if html:
doc=pq(html)
tds = doc('td.ip').items()
for td in tds:
#print(tr.text())
td.find('p').remove()
#print(td.text())
yield td.text().replace('\n', '')
def crawl_kuaidaili(self,page_count=1):
start_url='https://www.kuaidaili.com/free/inha/{}/'
urls = [start_url.format(page) for page in range(1, page_count + 1)]
for url in urls:
html=get_page(url)
print('Crawling', url)
if html:
doc=pq(html)
#.items()必须要有,否则trs只是一个element的集合,里面的元素都是str
trs=doc('#list table tbody tr').items()
for tr in trs:
# list > table > tbody > tr:nth-child(1) > td:nth-child(1)
ip = tr.find('td:nth-child(1)').text()
port=tr.find('td:nth-child(2)').text()
yield ':'.join([ip, port])
上面的代码就是同过去相应的网站分析html代码格式,然后爬取需要的内容,这里我用的是pyquery库,这个库对css的筛选比较给力,直接去网站找到对应的内容然后copy一下就好了
同时我们注意到在构建这个类的时候,设置了一个属性metaclass=ProxyMetaclass,这一部分就是为了动态把爬取代码块添加到'__CrawlFunc__'列表用,方便后面调用,同时也方便日后添加其他网站的爬取代码,只要方法名中带有‘crawl_’就可以了
好了第一部分就讲到这里了,感兴趣的童鞋可以继续前往第二部分批评指导哈
|