同一标签下的多行文字如何分别爬取,Python交流,编程语言专区,鱼C论坛

liwei_kuma 发表于 2020-10-14 09:29:38

同一标签下的多行文字如何分别爬取

在爬取电影天堂（url='https://www.dy2018.com/html/gndy/dyzz/index.html'）的电影详细信息时发现所有内容都在一个标签下，分行保存的状态。我想把这些内容分别爬取，保存到Excel中，目前卡在了如何把这同一标签下的多行文字如何分别爬取到。

该标签下的内容：

&#8203;&#8203;&#8203;&#8203;&#8203;&#8203;◎译　　名　以勇气为名(台)/极限救援/布拉文

◎片　　名　Braven

◎年　　代　2018

◎产　　地　加拿大

◎类　　别　剧情/动作

◎语　　言　英语

◎字　　幕　中英双字幕

◎上映日期　2018-02-02(美国)

◎豆瓣评分　5.9/10 from 1606 users

◎IMDb评分　6.0/10 from 25714 users

◎文件格式　x264 + ACC

◎视频尺寸　

伪文青 发表于 2020-10-14 09:29:39

正则最简单
#!/usr/bin/python
import re

str = """◎译　　名　以勇气为名(台)/极限救援/布拉文

◎片　　名　Braven

◎年　　代　2018

◎产　　地　加拿大

◎类　　别　剧情/动作

◎语　　言　英语

◎字　　幕　中英双字幕

◎上映日期　2018-02-02(美国)

◎豆瓣评分　5.9/10 from 1606 users

◎IMDb评分　6.0/10 from 25714 users

◎文件格式　x264 + ACC

◎视频尺寸"""

strarr = re.findall( '◎(.*)\n', str)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)
print(strarr)

hrp 发表于 2020-10-14 10:09:53

为什么要分行爬取？一次爬取，再讲爬取到的内容按行分割，再分别保存到Excel不可以么

伪文青 发表于 2020-10-14 10:12:59

用正则表达式啊◎(.*?)\n

liwei_kuma 发表于 2020-10-14 10:39:59

hrp 发表于 2020-10-14 10:09
为什么要分行爬取？一次爬取，再讲爬取到的内容按行分割，再分别保存到Excel不可以么

可以，具体应该怎么操作呢？

liwei_kuma 发表于 2020-10-14 10:47:55

伪文青发表于 2020-10-14 10:42
正则最简单

谢谢，我吸收一下

hrp 发表于 2020-10-14 11:12:42

本帖最后由 hrp 于 2020-10-14 11:46 编辑

liwei_kuma 发表于 2020-10-14 10:39
可以，具体应该怎么操作呢？

该标签的爬取结果.split('\n')

liwei_kuma 发表于 2020-10-14 12:08:22

hrp 发表于 2020-10-14 11:12
该标签的爬取结果.split('\n')

大神的思路领会了，但是动手能力太差，代码未能实现，用另一位老师所提的RE实现了。

页: [1]

鱼C论坛's Archiver

同一标签下的多行文字如何分别爬取