同一标签下的多行文字如何分别爬取
在爬取电影天堂(url='https://www.dy2018.com/html/gndy/dyzz/index.html')的电影详细信息时发现所有内容都在一个标签下,分行保存的状态。我想把这些内容分别爬取,保存到Excel中,目前卡在了如何把这同一标签下的多行文字如何分别爬取到。该标签下的内容:
​​​​​​◎译 名 以勇气为名(台)/极限救援/布拉文
◎片 名 Braven
◎年 代 2018
◎产 地 加拿大
◎类 别 剧情/动作
◎语 言 英语
◎字 幕 中英双字幕
◎上映日期 2018-02-02(美国)
◎豆瓣评分 5.9/10 from 1606 users
◎IMDb评分 6.0/10 from 25714 users
◎文件格式 x264 + ACC
◎视频尺寸 正则最简单
#!/usr/bin/python
import re
str = """◎译 名 以勇气为名(台)/极限救援/布拉文
◎片 名 Braven
◎年 代 2018
◎产 地 加拿大
◎类 别 剧情/动作
◎语 言 英语
◎字 幕 中英双字幕
◎上映日期 2018-02-02(美国)
◎豆瓣评分 5.9/10 from 1606 users
◎IMDb评分 6.0/10 from 25714 users
◎文件格式 x264 + ACC
◎视频尺寸"""
strarr = re.findall( '◎(.*)\n', str)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr) 为什么要分行爬取?一次爬取,再讲爬取到的内容按行分割,再分别保存到Excel不可以么 用正则表达式啊◎(.*?)\n hrp 发表于 2020-10-14 10:09
为什么要分行爬取?一次爬取,再讲爬取到的内容按行分割,再分别保存到Excel不可以么
可以,具体应该怎么操作呢? 伪文青 发表于 2020-10-14 10:42
正则最简单
谢谢,我吸收一下 本帖最后由 hrp 于 2020-10-14 11:46 编辑
liwei_kuma 发表于 2020-10-14 10:39
可以,具体应该怎么操作呢?
该标签的爬取结果.split('\n') hrp 发表于 2020-10-14 11:12
该标签的爬取结果.split('\n')
大神的思路领会了,但是动手能力太差,代码未能实现,用另一位老师所提的RE实现了。
页:
[1]