鱼C论坛

 找回密码
 立即注册
查看: 1735|回复: 7

[已解决]同一标签下的多行文字如何分别爬取

[复制链接]
发表于 2020-10-14 09:29:38 | 显示全部楼层 |阅读模式
2鱼币
在爬取电影天堂(url='https://www.dy2018.com/html/gndy/dyzz/index.html')的电影详细信息时发现所有内容都在一个标签下,分行保存的状态。我想把这些内容分别爬取,保存到Excel中,目前卡在了如何把这同一标签下的多行文字如何分别爬取到。 Snipaste_2020-10-14_09-24-36.png

该标签下的内容:

​​​​​​◎译  名 以勇气为名(台)/极限救援/布拉文

◎片  名 Braven

◎年  代 2018

◎产  地 加拿大

◎类  别 剧情/动作

◎语  言 英语

◎字  幕 中英双字幕

◎上映日期 2018-02-02(美国)

◎豆瓣评分 5.9/10 from 1606 users

◎IMDb评分 6.0/10 from 25714 users

◎文件格式 x264 + ACC

◎视频尺寸 
最佳答案
2020-10-14 09:29:39
正则最简单
#!/usr/bin/python
import re
 
str = """◎译  名 以勇气为名(台)/极限救援/布拉文

◎片  名 Braven

◎年  代 2018

◎产  地 加拿大

◎类  别 剧情/动作

◎语  言 英语

◎字  幕 中英双字幕

◎上映日期 2018-02-02(美国)

◎豆瓣评分 5.9/10 from 1606 users

◎IMDb评分 6.0/10 from 25714 users

◎文件格式 x264 + ACC

◎视频尺寸"""
 
strarr = re.findall( '◎(.*)\n', str)
print(strarr[0])
print(strarr[1])
print(strarr[2])
print(strarr[3])
print(strarr[4])
print(strarr[5])
print(strarr[6])
print(strarr[7])
print(strarr[8])
print(strarr[9])
print(strarr[10])

最佳答案

查看完整内容

正则最简单
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-14 09:29:39 | 显示全部楼层    本楼为最佳答案   
正则最简单
#!/usr/bin/python
import re
 
str = """◎译  名 以勇气为名(台)/极限救援/布拉文

◎片  名 Braven

◎年  代 2018

◎产  地 加拿大

◎类  别 剧情/动作

◎语  言 英语

◎字  幕 中英双字幕

◎上映日期 2018-02-02(美国)

◎豆瓣评分 5.9/10 from 1606 users

◎IMDb评分 6.0/10 from 25714 users

◎文件格式 x264 + ACC

◎视频尺寸"""
 
strarr = re.findall( '◎(.*)\n', str)
print(strarr[0])
print(strarr[1])
print(strarr[2])
print(strarr[3])
print(strarr[4])
print(strarr[5])
print(strarr[6])
print(strarr[7])
print(strarr[8])
print(strarr[9])
print(strarr[10])
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-14 10:09:53 From FishC Mobile | 显示全部楼层
为什么要分行爬取?一次爬取,再讲爬取到的内容按行分割,再分别保存到Excel不可以么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-14 10:12:59 | 显示全部楼层
用正则表达式啊
◎(.*?)\n
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-10-14 10:39:59 | 显示全部楼层
hrp 发表于 2020-10-14 10:09
为什么要分行爬取?一次爬取,再讲爬取到的内容按行分割,再分别保存到Excel不可以么

可以,具体应该怎么操作呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-10-14 10:47:55 | 显示全部楼层

谢谢,我吸收一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-14 11:12:42 From FishC Mobile | 显示全部楼层
本帖最后由 hrp 于 2020-10-14 11:46 编辑
liwei_kuma 发表于 2020-10-14 10:39
可以,具体应该怎么操作呢?


该标签的爬取结果.split('\n')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-10-14 12:08:22 | 显示全部楼层
hrp 发表于 2020-10-14 11:12
该标签的爬取结果.split('\n')

大神的思路领会了,但是动手能力太差,代码未能实现,用另一位老师所提的RE实现了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-18 09:49

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表