python多线程爬虫

moemoe5631 · 发表于 2017-9-17 01:41:54

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

新人刚学爬虫练手了一下
win10 64位  python3
大致内容：爬了很多网页，，每个网页上有一系列图片
每个网页对应地创建了一个文件夹
以文件夹：图片url的形式拿字典保存了下来
全部创建了子线程  6000多个
用BoundedSemaphore设置了最大线程数
问题在于
1  运行后所有图爬完了主线程里print(end-start)也显示了运行时间程序最后不知道为什么不退出
QQ图片20170917013824.png

2 如果最后改为for t in threads: t.join() 不设置timeout参数的话图片爬完不会显示最后的print(end-start) 一样的会卡住

与上图一样只是最后没有运行时间

3 还有个小问题就是途中偶尔会有几个线程遇到[Errno 10054] 远程主机强迫关闭了一个现有的连接是被网站认定为了爬虫吗有什么好的伪装办法吗

4 有没有更好的多线程的写法

最后感谢各位大佬

代码：

import re
import urllib.request
import os
import urllib.parse
import json
import threading
import time
class downloader(threading.Thread):
def __init__(self,img_url,file_name,semlock):
threading.Thread.__init__(self)
self.img_url=img_url
self.file_name=file_name
self.semlock=semlock
def run(self):
self.semlock.acquire()
auto_down(self.img_url,self.file_name)
self.semlock.release()
def auto_down(url,file_name): #递归urlretrieve下载图片至指定文件夹
try:
print('正在下载%s到%s'%(url,file_name))
urllib.request.urlretrieve(url,file_name)
except urllib.error.ContentTooShortError:
print('Network conditions is not good.Reloading.')
auto_down(url,file_name)
def get_img_url(html): #根据每个网址获取图片url
html=html.decode('utf-8')
imglist_before=re.findall(r'<img[\s\S]*?src="([^"]+\.jpg|[^"]+\.gif)"',html)
imglist_final=[]
for each in imglist_before:
if re.search(r'.*\d+',each.split('/')[2]):
imglist_final.append(each)
return imglist_final
def get_file_name(html): #根据每个网址获取标题
html=html.decode('utf-8')
title_name=re.findall(r'<title>(.+) - AcFun',html)
return title_name[0]
def make_dir(title_name): #根据标题创建文件夹
file_name='C:\\Users\\sj\\Desktop\\123\\Cv\\'+title_name
if not os.path.exists(file_name):
os.mkdir(file_name)
def get_url(url,page): #获取所有页上的网址列表
data={}
data['specialId']=5003739
data['pageNo']=page
data['pageSize']=18
data=urllib.parse.urlencode(data).encode("utf-8")
req=urllib.request.Request(url,data)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read()
html=html.decode('utf-8')
target=json.loads(html)
url_page=[]
for i in target['specialContents']:
url_page.append("http://www.acfun.cn/a/ac"+i['id']+"#album=5003739,0,"+i['sort']+",64")
return url_page
def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read()
return html
if __name__=="__main__":
start = time.clock()
if not os.path.exists("C:\\Users\\sj\\Desktop\\123\\Cv"):
os.mkdir('C:\\Users\\sj\\Desktop\\123\\Cv')
os.chdir('C:\\Users\\sj\\Desktop\\123\\Cv')
url="http://www.acfun.cn/member/special/getSpecialContentPageBySpecial.aspx"
url_page=[]
threads=[]
dict={}
maxconnections = 30
semlock = threading.BoundedSemaphore(maxconnections)
for page in range(1,6):
url_page=get_url(url,page)
for i in url_page:
html=(url_open(i))
title_name=get_file_name(html)
make_dir(title_name)
dict[title_name]=get_img_url(html) #字典:{某文件夹：对应图片url}
for file_name,img_url in dict.items():
for each in img_url:
path='C:\\Users\\sj\\Desktop\\123\\Cv\\'+file_name+'\\'+each.split('/')[-1]
t=downloader(each,path,semlock)
threads.append(t)
for t in threads:
t.start()
for t in threads:
t.join(20)
end = time.clock()
print (end-start)

复制代码

wei_Y · 发表于 2017-9-17 10:25:15

本帖最后由 wei_Y 于 2017-9-17 10:29 编辑

建议用线程池或异步方式改进。
线程池可简单使用concurrent库里面的ThreadPoolExecutor。

with ThreadPoolExecutor(max_work=30) as t:
t.submit(requests.get, 'http://www.fishc.com')

复制代码

异步方式第三方可使用aiohttp，gevent等异步库实现。
如果是py3.5以上也可以自己封装一个异步http请求类。

异步例:

import asyncio
import requests
class Requests(object):
def __init__(self):
self.headers = headers.copy()
@requestsExceptionFilter
def get(self, url, **kwargs):
if not kwargs.get('headers'):
kwargs['headers'] = self.headers
return requests.get(url, **kwargs)
@requestsExceptionFilter
def post(self, url, **kwargs):
if not kwargs.get('headers'):
kwargs['headers'] = self.headers
return requests.post(url, **kwargs)
class ARequests(Requests):
"""
一个异步请求类，
"""
def __init__(self, callback):
super().__init__()
self.callback = callback
def __enter__(self):
return self
def __exit__(self, except_type, value, tb):
return True
def _httpRequest(self, method, url, kwargs):
method = method.upper()
if method == 'GET':
data = super().get(url, **kwargs)
elif method == 'POST':
data = super().post(url, **kwargs)
return data
@asyncio.coroutine
def _get(self, url, **kwargs):
eventLoop = asyncio.get_event_loop()
future = eventLoop.run_in_executor(None, self._httpRequest, 'GET', url, kwargs)
data = yield from future
return data
@asyncio.coroutine
def _post(self, url, **kwargs):
eventLoop = asyncio.get_event_loop()
future = eventLoop.run_in_executor(None, self._httpRequest, 'POST', url, kwargs)
data = yield from future
return data
def get(self, url, **kwargs):
eventLoop = asyncio.get_event_loop()
future = eventLoop.create_task(self._get(url, **kwargs))
future.add_done_callback(self.callback)
def post(self, url, **kwargs):
eventLoop = asyncio.get_event_loop()
future = eventLoop.create_task(self._post(url, **kwargs))
future.add_done_callback(self.callback)
if __name__ == '__main__':
import sys
eventLoop = asyncio.get_event_loop()
urls = ['http://www.fishc.com']*5
def printData(future):
print(future.result())
# 回调函数，下面用的是run_forever，这里需要退出。
urls.pop()
if not urls:
sys.exit()
http = ARequests(printData)
for i in range(5):
http.get(urls[i])
eventLoop.run_forever()

复制代码

<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
[Finished in 0.6s]

复制代码

Request可以自己用urllib封装下。
异步原理:
http://python.jobbole.com/88291/
装饰器:
http://bbs.fishc.com/thread-77552-1-1.html
多线程:
http://bbs.fishc.com/thread-77760-1-1.html

账号		自动登录	找回密码
密码			立即注册

python多线程爬虫

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块