提取数据的问题
大家能看看这里的信息能怎样提取和储存吗<li id="26825482" class="list-item" data-title="月球陨落" data-score="5.4" data-star="30" data-release="2022" data-duration="130分钟" data-region="美国 中国大陆 英国" data-director="罗兰·艾默里奇" data-actors="哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利" data-category="nowplaying" data-enough="True" data-showed="True" data-votecount="61344" data-subject="26825482">
<ul class="">
<li class="poster">
<a href="https://movie.douban.com/subject/26825482/?from=playing_poster" target="_blank" data-psource="poster">
<img src="https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2869422067.webp" alt="月球陨落" rel="nofollow" class="">
</a>
</li>
<li class="stitle">
<a href="https://movie.douban.com/subject/26825482/?from=playing_poster" class="" target="_blank" title="月球陨落" data-psource="title">
月球陨落
</a>
</li>
<li class="srating">
<span class="rating-star allstar30"></span>
<span class="subject-rate">5.4</span>
</li>
<li class="sbtn">
<a class="ticket-btn" href="https://movie.douban.com/ticket/redirect/?movie_id=26825482" target="_blank">
选座购票
</a>
</li>
</ul>
</li> 你想提啥数据呢 汉字的数据,月球陨落,5.4,130分钟等这些汉字的数据 柠檬冲冲冲 发表于 2022-4-12 15:10
汉字的数据,月球陨落,5.4,130分钟等这些汉字的数据
汉字就是汉字,这5.4也好130也好,和汉字有啥关系呢 不好意思,又没有说清楚<li id="26825482" class="list-item" data-title="月球陨落" data-score="5.4" data-star="30" data-release="2022" data-duration="130分钟" data-region="美国 中国大陆 英国" data-director="罗兰·艾默里奇" data-actors="哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利"
我就想提取“月球陨落”,“5.4”,"30","2022","130分钟","美国 中国大陆 英国""罗兰·艾默里奇" 哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利"这些data-后面的数据,你有方法吗
谢谢了 柠檬冲冲冲 发表于 2022-4-12 21:29
不好意思,又没有说清楚
我就想提取“月球陨落”,“5.4”,"30","2022","130分钟","美国 中国大陆 英 ...
>>> s
'<li id="26825482" class="list-item" data-title="月球陨落" data-score="5.4" data-star="30" data-release="2022" data-duration="130分钟" data-region="美国 中国大陆 英国" data-director="罗兰·艾默里奇" data-actors="哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利" '
>>> re.findall(r'data-title="(.+?)".+?data-score="(.+?)".+?data-star="(.+?)".+?data-release="(.+?)".+?data-duration="(.+?)".+?data-region="(.+?)"', s)
[('月球陨落', '5.4', '30', '2022', '130分钟', '美国 中国大陆 英国')]
>>>
不管正则表达式写的好不好,反正这样确实能得到想要的数据
^_^ >>> re.findall(r'data-title="(.+?)".+?data-score="(.+?)".+?data-star="(.+?)".+?data-release="(.+?)".+?data-duration="(.+?)".+?data-actors="(.+?)"', s)
[('月球陨落', '5.4', '30', '2022', '130分钟', '哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利')]
>>>
看错单词了,抱歉
>>> re.findall(r'data-title="(.+?)".+?data-score="(.+?)".+?data-star="(.+?)".+?data-release="(.+?)".+?data-duration="(.+?)".+?data-region="(.+?)".+?data-director="(.+?)".+?data-actors="(.+?)"', s)
[('月球陨落', '5.4', '30', '2022', '130分钟', '美国 中国大陆 英国', '罗兰·艾默里奇', '哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利')]
>>>
^_^ 大概是因为困了
^_^
页:
[1]