[已解决]python爬取豆瓣电影top榜正则问题

小小蛙 · 发表于 2020-3-13 18:30:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import urllib.parse
import re

def movietop():
#获取网页源代码
url = 'https://movie.douban.com/typerank?type_name=%E7%A7%91%E5%B9%BB%E7%89%87&type=17&interval_id=100:90&action=playable'
response = urllib.request.Request(url)
response.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400')
html = urllib.request.urlopen(response).read().decode('utf-8')
#print(html)

#<a href="https://movie.douban.com/subject/3541415/" target="_blank">盗梦空间</a>
reg=r'<div class="movie-name"><a href="(.*?)" target="_blank">(.*?)</a></div>'
chapt_url = re.findall(reg,html)
print(chapt_url)
movietop()

为什么这里输出chapt_url 为空列表?
跪求大神讲解

最佳答案

月排行榜 / 总排行榜

禅境通幽

2020-3-13 19:41:53

本帖最后由禅境通幽于 2020-3-13 19:43 编辑

你这个网页是需要加载的你打印的html里面就没这个数据的

网页数据在这个页面 https://movie.douban.com/j/chart ... tart=0&limit=20 用json解析就好了

跳转到最佳答案楼层

1157751234 · 发表于 2020-3-13 19:24:31

我刚好有个re爬取豆瓣电影偷拍250的案例有详细的注释你要看嘛

小小蛙 · 发表于 2020-3-13 19:39:51

1157751234 发表于 2020-3-13 19:24
我刚好有个re爬取豆瓣电影偷拍250的案例有详细的注释你要看嘛

要看要看！

禅境通幽 · 发表于 2020-3-13 19:41:53

本帖最后由禅境通幽于 2020-3-13 19:43 编辑

你这个网页是需要加载的你打印的html里面就没这个数据的

网页数据在这个页面 https://movie.douban.com/j/chart ... tart=0&limit=20 用json解析就好了

小小蛙 · 发表于 2020-3-13 20:17:03

禅境通幽发表于 2020-3-13 19:41
你这个网页是需要加载的你打印的html里面就没这个数据的

网页数据在这个页面 https://movie.douban.c ...

C:\Users\liuhang\Desktop\NNWUR_1VMK}_F8YK(F850QO.png

小小蛙 · 发表于 2020-3-13 20:18:31

禅境通幽发表于 2020-3-13 19:41
你这个网页是需要加载的你打印的html里面就没这个数据的

网页数据在这个页面 https://movie.douban.c ...

你好，我用json.load解析html 然后输出html 他会报错是怎么回事

禅境通幽 · 发表于 2020-3-13 20:44:36

他那个json好像有问题解析不出来，用用正则读取吧

小小蛙 · 发表于 2020-3-13 22:27:16

禅境通幽发表于 2020-3-13 20:44
他那个json好像有问题解析不出来，用用正则读取吧

您好，请问你上面那个网址是怎么搞出来的

禅境通幽 · 发表于 2020-3-14 20:49:03

小小蛙发表于 2020-3-13 22:27
您好，请问你上面那个网址是怎么搞出来的

F12 用开发者模式找

1157751234 · 发表于 2020-3-16 14:27:51

本帖最后由 1157751234 于 2020-3-16 14:29 编辑

禅境通幽发表于 2020-3-13 19:41
你这个网页是需要加载的你打印的html里面就没这个数据的

网页数据在这个页面 https://movie.douban.c ...

你加我QQ发你吧这里发不来 1157751234

账号		自动登录	找回密码
密码			立即注册

[已解决]python爬取豆瓣电影top榜正则问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块