柠檬冲冲冲 发表于 2022-4-11 23:08:10

提取数据的问题

大家能看看这里的信息能怎样提取和储存吗

<li id="26825482" class="list-item" data-title="月球陨落" data-score="5.4" data-star="30" data-release="2022" data-duration="130分钟" data-region="美国 中国大陆 英国" data-director="罗兰·艾默里奇" data-actors="哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利" data-category="nowplaying" data-enough="True" data-showed="True" data-votecount="61344" data-subject="26825482">
                        <ul class="">
                            <li class="poster">
                              <a href="https://movie.douban.com/subject/26825482/?from=playing_poster" target="_blank" data-psource="poster">
                                    <img src="https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2869422067.webp" alt="月球陨落" rel="nofollow" class="">
                              </a>
                            </li>
                            <li class="stitle">
                              <a href="https://movie.douban.com/subject/26825482/?from=playing_poster" class="" target="_blank" title="月球陨落" data-psource="title">
                                    月球陨落
                              </a>
                            </li>


                            <li class="srating">
                                        <span class="rating-star allstar30"></span>
                                        <span class="subject-rate">5.4</span>
                            </li>
                              <li class="sbtn">
                                    <a class="ticket-btn" href="https://movie.douban.com/ticket/redirect/?movie_id=26825482" target="_blank">
                                        选座购票
                                    </a>
                              </li>
                        </ul>
                  </li>

wp231957 发表于 2022-4-12 06:30:03

你想提啥数据呢

柠檬冲冲冲 发表于 2022-4-12 15:10:08

汉字的数据,月球陨落,5.4,130分钟等这些汉字的数据

wp231957 发表于 2022-4-12 17:32:26

柠檬冲冲冲 发表于 2022-4-12 15:10
汉字的数据,月球陨落,5.4,130分钟等这些汉字的数据

汉字就是汉字,这5.4也好130也好,和汉字有啥关系呢

柠檬冲冲冲 发表于 2022-4-12 21:29:39

不好意思,又没有说清楚<li id="26825482" class="list-item" data-title="月球陨落" data-score="5.4" data-star="30" data-release="2022" data-duration="130分钟" data-region="美国 中国大陆 英国" data-director="罗兰·艾默里奇" data-actors="哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利"
我就想提取“月球陨落”,“5.4”,"30","2022","130分钟","美国 中国大陆 英国""罗兰·艾默里奇" 哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利"这些data-后面的数据,你有方法吗

谢谢了

人造人 发表于 2022-4-13 00:28:38

柠檬冲冲冲 发表于 2022-4-12 21:29
不好意思,又没有说清楚
我就想提取“月球陨落”,“5.4”,"30","2022","130分钟","美国 中国大陆 英 ...

>>> s
'<li id="26825482" class="list-item" data-title="月球陨落" data-score="5.4" data-star="30" data-release="2022" data-duration="130分钟" data-region="美国 中国大陆 英国" data-director="罗兰·艾默里奇" data-actors="哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利" '
>>> re.findall(r'data-title="(.+?)".+?data-score="(.+?)".+?data-star="(.+?)".+?data-release="(.+?)".+?data-duration="(.+?)".+?data-region="(.+?)"', s)
[('月球陨落', '5.4', '30', '2022', '130分钟', '美国 中国大陆 英国')]
>>>

不管正则表达式写的好不好,反正这样确实能得到想要的数据
^_^

人造人 发表于 2022-4-13 00:30:41

>>> re.findall(r'data-title="(.+?)".+?data-score="(.+?)".+?data-star="(.+?)".+?data-release="(.+?)".+?data-duration="(.+?)".+?data-actors="(.+?)"', s)
[('月球陨落', '5.4', '30', '2022', '130分钟', '哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利')]
>>>

看错单词了,抱歉

人造人 发表于 2022-4-13 00:33:08

>>> re.findall(r'data-title="(.+?)".+?data-score="(.+?)".+?data-star="(.+?)".+?data-release="(.+?)".+?data-duration="(.+?)".+?data-region="(.+?)".+?data-director="(.+?)".+?data-actors="(.+?)"', s)
[('月球陨落', '5.4', '30', '2022', '130分钟', '美国 中国大陆 英国', '罗兰·艾默里奇', '哈莉·贝瑞 / 帕特里克·威尔森 / 约翰·布莱德利')]
>>>

^_^

人造人 发表于 2022-4-13 00:33:41

大概是因为困了
^_^
页: [1]
查看完整版本: 提取数据的问题