liwei_kuma 发表于 2020-10-14 09:29:38

同一标签下的多行文字如何分别爬取

在爬取电影天堂(url='https://www.dy2018.com/html/gndy/dyzz/index.html')的电影详细信息时发现所有内容都在一个标签下,分行保存的状态。我想把这些内容分别爬取,保存到Excel中,目前卡在了如何把这同一标签下的多行文字如何分别爬取到。

该标签下的内容:

​​​​​​◎译  名 以勇气为名(台)/极限救援/布拉文

◎片  名 Braven

◎年  代 2018

◎产  地 加拿大

◎类  别 剧情/动作

◎语  言 英语

◎字  幕 中英双字幕

◎上映日期 2018-02-02(美国)

◎豆瓣评分 5.9/10 from 1606 users

◎IMDb评分 6.0/10 from 25714 users

◎文件格式 x264 + ACC

◎视频尺寸 

伪文青 发表于 2020-10-14 09:29:39

正则最简单
#!/usr/bin/python
import re

str = """◎译  名 以勇气为名(台)/极限救援/布拉文

◎片  名 Braven

◎年  代 2018

◎产  地 加拿大

◎类  别 剧情/动作

◎语  言 英语

◎字  幕 中英双字幕

◎上映日期 2018-02-02(美国)

◎豆瓣评分 5.9/10 from 1606 users

◎IMDb评分 6.0/10 from 25714 users

◎文件格式 x264 + ACC

◎视频尺寸"""

strarr = re.findall( '◎(.*)\n', str)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)

hrp 发表于 2020-10-14 10:09:53

为什么要分行爬取?一次爬取,再讲爬取到的内容按行分割,再分别保存到Excel不可以么

伪文青 发表于 2020-10-14 10:12:59

用正则表达式啊◎(.*?)\n

liwei_kuma 发表于 2020-10-14 10:39:59

hrp 发表于 2020-10-14 10:09
为什么要分行爬取?一次爬取,再讲爬取到的内容按行分割,再分别保存到Excel不可以么

可以,具体应该怎么操作呢?

liwei_kuma 发表于 2020-10-14 10:47:55

伪文青 发表于 2020-10-14 10:42
正则最简单

谢谢,我吸收一下

hrp 发表于 2020-10-14 11:12:42

本帖最后由 hrp 于 2020-10-14 11:46 编辑

liwei_kuma 发表于 2020-10-14 10:39
可以,具体应该怎么操作呢?

该标签的爬取结果.split('\n')

liwei_kuma 发表于 2020-10-14 12:08:22

hrp 发表于 2020-10-14 11:12
该标签的爬取结果.split('\n')

大神的思路领会了,但是动手能力太差,代码未能实现,用另一位老师所提的RE实现了。
页: [1]
查看完整版本: 同一标签下的多行文字如何分别爬取