[已解决]关于爬取知乎图片的get_txt的用法

kunkun_1230 · 发表于 2017-9-3 19:09:43

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 kunkun_1230 于 2017-9-3 19:19 编辑

周末的时候根据教程，模仿了一个爬取知乎妹纸图的文件。
系统：win10
工具：python 3.6

在模拟过程中，发现所有的妹纸图片都在这样一个语句中（以诸多语句中的一个为例）：
<noscript>
               <img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_r.jpg" data-rawheight="1500" data-rawwidth="1082" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_b.jpg" width="1082"/>
               还差点火候～～( ′ ▽ ` )ﾉ
</noscript>

于是想采用以下语句进行提取链接：
with open("C:/output/rawfile/noscript_meta.txt", 'w', encoding='utf-8') as noscript_meta:
      noscript_nodes = result_soup.find_all('noscript') # 找到所有<noscript>node
      noscript_inner_all = ""
      for noscript in noscript_nodes:
         noscript_inner = noscript.get_text() # 获取<noscript>node内部内容
         noscript_inner_all += noscript_inner + "\n"

      noscript_all = html.parser.unescape(noscript_inner_all) #  将内部内容转码并存储
      noscript_meta.write(noscript_all)
然而提取出来的链接只有这几个字：   还差点火候～～( ′ ▽ ` )ﾉ

可见get_txt这个写法可能不对。
尝试采用 noscript_inner = noscript[‘src’]或者['data-original']，结果如图提示：
keyerror

错误原因

请问有哪位大神知道，这种情况应该如何将图片链接在两个noscript中提取出来呢？
不胜感激/(ㄒoㄒ)/~~（全部程序见network.py https://github.com/kunkun1230/Python-/tree/master/output/rawfile）

最佳答案

月排行榜 / 总排行榜

ba21

2017-9-3 23:29:58

本帖最后由 ba21 于 2017-9-3 23:32 编辑

import re
str1='''<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_r.jpg" data-rawheight="100" data-rawwidth="400" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_b.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>
<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_asdf.jpg" data-rawheight="1550" data-rawwidth="100" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_43.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>
'''
r=re.findall(r'<img class="origin_image zh-lightbox-thumb" data-original="(https://.+\.jpg)" data-rawheight="[0-9]+" data-rawwidth="[0-9]+" src="(https://.+\.jpg)"',str1)
for url in r:
print(url[0]+'\n'+url[1])

复制代码

跳转到最佳答案楼层

ba21 · 发表于 2017-9-3 20:01:17

import re
str1='''<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_r.jpg" data-rawheight="1500" data-rawwidth="1082" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_b.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>'''
r=re.search(r'<img class="origin_image zh-lightbox-thumb" data-original="(https://.+\.jpg)" data-rawheight="1500" data-rawwidth="1082" src="(https://.+\.jpg)"',str1)
print(r.group(1))
print(r.group(2))

复制代码

kunkun_1230 · 发表于 2017-9-3 21:33:34

ba21 发表于 2017-9-3 20:01

谢谢大神的帮助。可是这个网页里面有很多这样的noscript，阁下这个写法，不是只能处理一次么？

tich · 发表于 2017-9-3 21:34:04

试着做了一下，然后上传到github了

欢迎fork、star、pr
https://github.com/LewisTian/Python

ba21 · 发表于 2017-9-3 21:46:24

kunkun_1230 发表于 2017-9-3 21:33
谢谢大神的帮助。可是这个网页里面有很多这样的noscript，阁下这个写法，不是只能处理一次么？

哦，把你代码上上来。我改好发给你。也免得你伤脑

kunkun_1230 · 发表于 2017-9-3 21:46:50

tich 发表于 2017-9-3 21:34
试着做了一下，然后上传到github了
欢迎fork、star、pr
https://github.com/LewisTian/Python

腻害，请问有没有什么方式把那个get_txt(),进行一下修改？？

ba21 · 发表于 2017-9-3 21:52:51

正式宣布，你可以用现在的了。

import re
str1='''<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_r.jpg" data-rawheight="1500" data-rawwidth="1082" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_b.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>
<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_asdf.jpg" data-rawheight="1500" data-rawwidth="1082" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_43.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>
'''
r=re.findall(r'<img class="origin_image zh-lightbox-thumb" data-original="(https://.+\.jpg)" data-rawheight="1500" data-rawwidth="1082" src="(https://.+\.jpg)"',str1)
for url in r:
print(url[0]+'\n'+url[1])

复制代码

kunkun_1230 · 发表于 2017-9-3 22:01:16

ba21 发表于 2017-9-3 21:46
哦，把你代码上上来。我改好发给你。也免得你伤脑

代码在这里啊https://github.com/kunkun1230/Python-/tree/master/output/rawfile，network.py

kunkun_1230 · 发表于 2017-9-3 22:18:09

ba21 发表于 2017-9-3 21:52
正式宣布，你可以用现在的了。

这个好像还是只能处理一次哈

ba21 · 发表于 2017-9-3 22:20:22

kunkun_1230 发表于 2017-9-3 22:18
这个好像还是只能处理一次哈

什么一次，这不是都提取出来了
2个no 。。。4个.jpg

kunkun_1230 · 发表于 2017-9-3 22:39:32

ba21 发表于 2017-9-3 22:20
什么一次，这不是都提取出来了
2个no 。。。4个.jpg

不是的，亲。这个链接（https://github.com/kunkun1230/Python-/tree/master/output/rawfile）里面的raw_file.txt,里面的noscript有几百个的，等于有上百张图····

ba21 · 发表于 2017-9-3 22:42:39

kunkun_1230 发表于 2017-9-3 22:39
不是的，亲。这个链接（https://github.com/kunkun1230/Python-/tree/master/output/rawfile）里面的raw_ ...

亲，你能举1返3不？
不要讲上百张，我给你的代码，你灵活运用上亿张还不就是改一个数字的问题。

kunkun_1230 · 发表于 2017-9-3 23:19:32

ba21 发表于 2017-9-3 22:42
亲，你能举1返3不？
不要讲上百张，我给你的代码，你灵活运用上亿张还不就是改一个数字的问题。{:10_266 ...

大神，恕我愚钝。刚刚学习爬虫。我刚研究了一下网页，发现里面图片的尺寸都不太一样。用你的代码只找到了两张图。请问这个data-rawheight="1500"和 data-rawwidth="1082"，应该怎么改的更加普遍一点呢？
谢谢谢谢！

r=re.findall(r'<img class="origin_image zh-lightbox-thumb" data-original="(https://.+\.jpg)" data-rawheight="1500" data-rawwidth="1082" src="(https://.+\.jpg)"',str1)

复制代码

ba21 · 发表于 2017-9-3 23:29:58

本帖最后由 ba21 于 2017-9-3 23:32 编辑

import re
str1='''<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_r.jpg" data-rawheight="100" data-rawwidth="400" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_b.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>
<noscript>
<img class="origin_image zh-lightbox-thumb" data-original="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_asdf.jpg" data-rawheight="1550" data-rawwidth="100" src="https://pic3.zhimg.com/bf381cae0b94c7b6b70913423b5bb27a_43.jpg" width="1082"/>
还差点火候～～( ′ ▽ ` )ﾉ
</noscript>
'''
r=re.findall(r'<img class="origin_image zh-lightbox-thumb" data-original="(https://.+\.jpg)" data-rawheight="[0-9]+" data-rawwidth="[0-9]+" src="(https://.+\.jpg)"',str1)
for url in r:
print(url[0]+'\n'+url[1])

复制代码

kunkun_1230 · 发表于 2017-9-3 23:54:30

ba21 发表于 2017-9-3 23:29

感谢大神的耐心教导，刚入坑，对正则还不是太懂。谢谢谢谢

账号		自动登录	找回密码
密码			立即注册

[已解决]关于爬取知乎图片的get_txt的用法

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块