jupyter和python代码运行多线程爬虫问题

tq1258 · 发表于 2019-10-5 08:54:11

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

在学习python多线程爬取斗图啦热门图片的问题：
      在jupyter和python shell执行queue多线程爬取图片，第一次执行命令没问题，第二次再执行就没有反应了，是因为锁的问题么？
      而且爬取的图片少了很多    下面是代码：

<blockquote>import requests

复制代码

zltzlt · 发表于 2019-10-5 08:54:57

代码呢？

tq1258 · 发表于 2019-10-5 08:56:38

import requests
from lxml import etree
from urllib import request
import os
import re
from queue import Queue
import threading
class Producer(threading.Thread):
headers = {
'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
def __init__(self, page_queue, img_queue, *args, **kwargs):
super(Producer, self).__init__(*args, **kwargs)
self.page_queue = page_queue
self.img_queue = img_queue
def run(self):
while True:
if self.page_queue.empty():
break
url = self.page_queue.get()
self.parse_page(url)
def parse_page(self, url):
response = requests.get(url, headers=self.headers)
text = response.text
html = etree.HTML(text)
imgs = html.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')
for img in imgs:
img_url = img.get('data-original')
alt = img.get('alt')
alt = re.sub('[\?？，。！\.\/\*]','',alt)
suffix = os.path.splitext(img_url)[1]
filename = alt + suffix
self.img_queue.put((img_url,filename))
class Consumer(threading.Thread):
def __init__(self, page_queue, img_queue, *args, **kwargs):
super(Consumer, self).__init__(*args, **kwargs)
self.page_queue = page_queue
self.img_queue = img_queue
def run(self):
while True:
if self.img_queue.empty() and self.page_queue.empty():
break
img_url,filename = self.img_queue.get()
request.urlretrieve(img_url, 'D:/爬取内容/图片/斗图啦/'+filename)
print(filename + ' 下载完成！')
def main():
page_queue = Queue(100)
img_queue = Queue(1000)
for x in range(1, 101):
url = 'http://www.doutula.com/photo/list/?page=%d'%x
page_queue.put(url)
for x in range(5):
t = Producer(page_queue, img_queue)
t.start()
for x in range(5):
t = Consumer(page_queue, img_queue)
t.start()
if __name__ == '__main__':
main()

复制代码

tq1258 · 发表于 2019-10-5 08:57:13

zltzlt 发表于 2019-10-5 08:54
代码呢？

在下面，第一次放的时候好像没弄好

塔利班 · 发表于 2019-10-5 09:21:48

有可能是没上锁的问题，一起争抢全局queue

tq1258 · 发表于 2019-10-5 09:35:04

塔利班发表于 2019-10-5 09:21
有可能是没上锁的问题，一起争抢全局queue

感觉很可能，但是我看视频上说用queue是安全的不会发生争抢行为，他也是运行了不止一遍，每一遍都可以执行

塔利班 · 发表于 2019-10-5 09:55:59

tq1258 发表于 2019-10-5 09:35
感觉很可能，但是我看视频上说用queue是安全的不会发生争抢行为，他也是运行了不止一遍，每一遍都可以执 ...

如果是安全的话可能就是cunsumer的判断if快，判断你的imgqueue还是空的，所以直接停了

账号		自动登录	找回密码
密码			立即注册

jupyter和python代码运行多线程爬虫问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块