[已解决]关于爬虫线程问题，有会爬虫方面的渔友吗

Stubborn · 发表于 2019-1-25 22:51:21

本帖最后由 Stubborn 于 2019-1-27 04:51 编辑

秉承着学习的态度看了下多线程。加上之前刚刚好找一个网站练手，于是继续拿那个网站练手，遇到一些问题，有指教的不甚感激。主要是下载不到数据。提取什么的都正常。
为什么下载不了下载不了，解析都OK的
剔除保存图片的代码，可以正常循环，不剔除代码块只循环一次，就过了

思路很简单,代码如下:

def save_img(self,img_number,img_url,title):
"图集下载"
headers = {
'User-Agent': ua.random,
'Referer': 'http://i.meizitu.net'
}
for i in range(1,int(img_number)+1):
# print("当前正在工作的线程是：{}，正在解析{}图集,地址是{}".format(self.thread_id, title,img_url))
img_subset_url = img_url + "/%s" % i
print("当前正在工作的线程是：{}，正在解析{}图集,地址是{}".format(self.thread_id, title, img_subset_url))
img_url = etree.HTML(requests.get(img_subset_url,headers=headers).text)
img_save_url = img_url.xpath('//div[@class="main-image"]/p/a/img/@src')[0] #图片下载地址
img_name = '%s\\' % title + img_url.split('/')[-1]
#开始下载图片
response = requests.get(img_save_url, headers=headers)
with open(img_name,"wb") as f:
f.write(response.content)

复制代码

最佳答案

月排行榜 / 总排行榜

1970-1-1 08:00:00

跳转到最佳答案楼层

Stubborn · 发表于 2019-1-25 23:00:17

@iwanna @edwinxin @四点好

Stubborn · 发表于 2019-1-25 23:47:34

本帖最后由 Stubborn 于 2019-1-25 23:54 编辑

iwanna 发表于 2019-1-25 23:34
大晚上的头晕,线程报错的话会麻烦,其他线程可能还不会停下来,traceback很难看
何况你还try except pass了 ...

def save_img(self,img_number,img_url,title): 测试过，参数都传到位了，
第88行这个参数进行下载的，数据测试过，都采集到了，但是到了
94行代码那个for循环，只会循环一次，然后所有的线程都退出了
然后后for循环下面的代码感觉没有执行
你的意思是可能哪里线程错了吗？

测试78到82行里面有错误，数据出一点，不出一点，会影响到下载吗？我再分析下
当前正在工作的线程是：parser_2，正在解析知性丽图集,图集张数位：41地址是https://www.mzitu.com/169451
当前正在工作的线程是：parser_1，正在解析可爱眼图集,图集张数位：74地址是https://www.mzitu.com/164996
当前正在工作的线程是：parser_3，正在解析各图集,图集张数位：45地址是https://www.mzitu.com/167343
线程分析错误
线程分析错误
当前正在工作的线程是：parser_1，正在解析只图集,图集张数位：51地址是https://www.mzitu.com/164314
当前正在工作的线程是：parser_2，正在解析御姐图集,图集张数位：52地址是https://www.mzitu.com/165703
线程分析错误
线程分析错误
当前正在工作的线程是：parser_3，正在解析图集,图集张数位：47地址是https://www.mzitu.com/166082
线程分析错误
当前正在工作的线程是：parser_1，正在解析优美图集,图集张数位：54地址是https://www.mzitu.com/164018

Stubborn · 发表于 2019-1-26 00:05:51

本帖最后由 Stubborn 于 2019-1-26 00:13 编辑

iwanna 发表于 2019-1-25 23:57
好吧,是我蠢了,没发现我可以复制代码自己试试
我是真头晕了,没看到你的情况说明
还 ...

我测试中止爬取了三页。总共是72个图集
图集个数：72
图集数量个数：72
图集个数：72
测试全部传到了
这个代码只能用来生成请求头的，不用这个模块找个'User-Agent'，替换掉ua就可以，测试过，for只循环一次，比如我在for下面打印i,全部是1，不是1到图集张数的循环。参数传到下载函数，都正常的

@wongyusing 大神来了帮忙看看~

Stubborn · 发表于 2019-1-26 00:49:23

iwanna 发表于 2019-1-26 00:45
你的img_url那里出错了,没有得到里面的文本,而是把_Element对象和str进行了拼接
至于错了哪些地方你再看看 ...

我在看看，非常感谢~

Stubborn · 发表于 2019-1-26 05:21:28

iwanna 发表于 2019-1-26 00:45
你的img_url那里出错了,没有得到里面的文本,而是把_Element对象和str进行了拼接
至于错了哪些地方你再看看 ...

在了解下，感觉可能是没有设置程序锁，导致线程操作乱序了，我再看看相关视频资料，再修改下

wongyusing · 发表于 2019-1-26 10:39:18

我能说我看不懂你的代码吗？？
或者说我没用过多线程吗？？

四点好 · 发表于 2019-1-26 12:36:39

我没学过多线程啊，这几天一直没学习。郁闷了

Stubborn · 发表于 2019-1-26 22:24:18

本帖最后由 Stubborn 于 2019-1-27 01:02 编辑

iwanna 发表于 2019-1-26 12:40
跟程序锁没关系,你这里是lxml除了问题.你线程之间又没有共享变量,哪有锁的问题

最后测试，加上文件读写的时候，for就不进行循环，打印一次就退出了，不加可以正常循环

当前parser_1线程正在打印循环变量i的值：1
当前parser_2线程正在打印循环变量i的值：1
当前parser_3线程正在打印循环变量i的值：1
当前parser_2线程正在打印循环变量i的值：1
当前parser_1线程正在打印循环变量i的值：1
当前parser_3线程正在打印循环变量i的值：1
当前parser_2线程正在打印循环变量i的值：1
当前parser_1线程正在打印循环变量i的值：1
当前parser_3线程正在打印循环变量i的值：1

复制代码

我换了一种请求方式，可以进行读写，循环正常，不过很尴尬，问题又来了。运行了几秒钟，刷耍走了好多，但是实际下载到的图片只有3张，其他全部丢了

我测试下第二次循环的图片地址看看，是不是没有获取到

parser_3线程正在下载可清纯可性感，尤果模特欣怡制服诱惑堪称仙女本人图集，第1张下载完毕
parser_2线程正在下载轻轻一撩惊艳万分图集，第1张下载完毕
parser_1线程正在下载臀控福利图片图集，第1张下载完毕
parser_1线程正在下载臀控福利图片图集，第2张下载完毕
parser_2线程正在下载知性丽人miya图集，第2张下载完毕
parser_3线程正在下载可清纯可性感图集，第2张下载完毕
parser_1线程正在下载臀控福利图片图集，第3张下载完毕
parser_3线程正在下载可清纯可性感图集，第3张下载完毕
parser_1线程正在下载臀控福利图片图集，第4张下载完毕
parser_2线程正在下载知性丽人miya图集，第3张下载完毕
parser_3线程正在下载可清纯可性感第4张下载完毕
parser_2线程正在下载知性丽人miya第4张下载完毕
parser_1线程正在下载臀控福利图片第5张下载完毕
退出了crawl_1线程
parser_3线程正在下载可清纯可性感，第5张下载完毕
parser_2线程正在下载知性丽人miya第5张下载完毕
parser_1线程正在下载臀控福利图片第6张下载完毕
parser_3线程正在下载可清纯可性感第6张下载完毕
parser_2线程正在下载知性丽人miya第6张下载完毕

复制代码

Stubborn · 发表于 2019-1-26 22:25:07

本帖最后由 Stubborn 于 2019-1-27 00:59 编辑

wongyusing 发表于 2019-1-26 10:39
我能说我看不懂你的代码吗？？
或者说我没用过多线程吗？？

我可以说不能吗，老大

Stubborn · 发表于 2019-1-27 04:47:27

Stubborn 发表于 2019-1-26 22:24
最后测试，加上文件读写的时候，for就不进行循环，打印一次就退出了，不加可以正常循环

解决了

账号		自动登录	找回密码
密码			立即注册

[已解决]关于爬虫线程问题，有会爬虫方面的渔友吗

浏览过的版块