鱼C论坛

 找回密码
 立即注册
查看: 1828|回复: 11

[已解决]关于遍历finditer产生的迭代器时卡死的问题

[复制链接]
发表于 2021-8-10 11:40:46 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如图,程序处理迭代器时里面的语句一条也没执行,就一直卡着,后面的散热风扇明显转动加快了,而且ctrl+c也没法终止程序
Screenshot 2021-08-10 114007.png
最佳答案
2021-8-10 12:09:38
先指出能第一眼看出的错误
  1. newstr=it.group(name)+'/'+it.group(score)+'/'+it.group(summary)+'\n'
复制代码

要用字符串 it.group("name")
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-8-10 11:52:18 | 显示全部楼层
发发代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-10 12:01:27 | 显示全部楼层

#爬取豆瓣TOP250
import requests
import re
url = 'https://movie.douban.com/top250'
headers ={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
res0=requests.get(url,headers=headers)
res=res0.text
res0.close()
print('获取完毕')
regu=re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?'\
                r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>'\
                r'&nbsp;(?P<style>.*?)</p>.*?<span class="inq">(?P<summary>)</span>',re.S)
its = regu.finditer(res)
print('处理完毕')
print(its)
f = open('豆瓣.txt','w')
for it in its:
    print('进来啦...')
    newstr=it.group(name)+'/'+it.group(score)+'/'+it.group(summary)+'\n'
    f.write(newstr)
    print('完成......')
    break
f.close()
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-10 12:07:50 | 显示全部楼层
菜de嚣张 发表于 2021-8-10 12:01
#爬取豆瓣TOP250
import requests
import re

ok,我现在看看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-10 12:09:38 | 显示全部楼层    本楼为最佳答案   
先指出能第一眼看出的错误
  1. newstr=it.group(name)+'/'+it.group(score)+'/'+it.group(summary)+'\n'
复制代码

要用字符串 it.group("name")
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-10 12:10:48 | 显示全部楼层
大马强 发表于 2021-8-10 12:09
先指出能第一眼看出的错误

要用字符串 it.group("name")

这...我看半天楞没发现
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-10 12:12:12 | 显示全部楼层
大马强 发表于 2021-8-10 12:09
先指出能第一眼看出的错误

要用字符串 it.group("name")

还是不行呀,它前面的那句话都没运行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-10 12:23:45 | 显示全部楼层
菜de嚣张 发表于 2021-8-10 12:12
还是不行呀,它前面的那句话都没运行

我只是先提出能第一眼看见的问题,我感觉可能是正则匹配的问题,我还在看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-10 12:43:44 | 显示全部楼层
搞定,我就是不知道你style是匹配什么的,原因是正则表达式
  1. url = 'https://movie.douban.com/top250'
  2. headers = {
  3.     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
  4. }
  5. res0 = requests.get(url, headers=headers)
  6. res = res0.text
  7. res0.close()
  8. print('获取完毕')
  9. regu = re.compile(
  10.     r'.*?<span class="title">(?P<name>.*?)</span>.*?<span class="rating_num".*?>(?P<score>.*?)</span>.*?<span class="inq">(?P<summary>.*?)</span.*?', re.S)
  11. its = regu.finditer(res)
  12. # regu = re.compile(r'.*?<span class="title">(?P<name>.*?)</span>.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span class="inq">(?P<summary>)</span>', re.S)
  13. # its = regu.finditer(res)
  14. # print(its)
  15. f = open('豆瓣.txt', 'w', encoding="utf-8")
  16. for it in its:
  17.     print('进来啦...')
  18.     newstr = it.group('name')+'/'+it.group('score') + \
  19.         '/'+it.group('summary')+'\n'
  20.     f.write(newstr)
  21.     print('完成......')
  22. f.close()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-10 13:09:56 | 显示全部楼层
大马强 发表于 2021-8-10 12:43
搞定,我就是不知道你style是匹配什么的,原因是正则表达式

啊确实,可是为什么匹配数为0的时候会卡死呢?迭代器里面没东西时没法迭代吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-10 13:11:09 | 显示全部楼层
菜de嚣张 发表于 2021-8-10 13:09
啊确实,可是为什么匹配数为0的时候会卡死呢?迭代器里面没东西时没法迭代吗

应该把,但我感觉是匹配花时间,但看你截图不像
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-10 13:17:31 | 显示全部楼层
大马强 发表于 2021-8-10 13:11
应该把,但我感觉是匹配花时间,但看你截图不像

好的,谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-20 11:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表