python怎么爬取豆瓣中完整的评论

水柔炎 · 发表于 2019-3-22 13:48:50

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

#  -*- coding:utf-8 -*-
import urllib.request
import urllib.parse

def tieba_spidr(url, begin_page, end_page):
full_url = url
html = load_page(full_url, 'douban')
write_page(html, 'douban')

def load_page(url, filename):
headers = {
      "User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
}
request = urllib.request.Request(url, headers=headers)
return urllib.request.urlopen(request).read()

def write_page(html, filename):
with open(filename, 'w', encoding='utf-8') as file:
      file.write(html.decode('utf-8'))

if __name__ == '__main__':
begin_page = 40
end_page = 80
url='https://movie.douban.com/subject/27060077/reviews?'
key = urllib.parse.urlencode({"start":40})
url = url+key
print(url)
tieba_spidr(url, begin_page, end_page)

snaker · 发表于 2019-3-22 17:59:47

用Chrome抓取一下看看

登录/注册后可看大图

得到的是Json的数据

登录/注册后可看大图

URL也在王网页里

登录/注册后可看大图

snaker · 发表于 2019-3-22 18:07:41

再爬取一下这个网址：https://movie.douban.com/j/review/10036646/full

水柔炎 · 发表于 2019-3-22 21:14:30

snaker 发表于 2019-3-22 18:07
再爬取一下这个网址：https://movie.douban.com/j/review/10036646/full

数据很不完整
少了很多

水柔炎 · 发表于 2019-3-22 21:15:56

数据很不完整，内容少了很多

snaker · 发表于 2019-3-23 08:17:03

数据不完整是什么意思

登录/注册后可看大图

水柔炎 · 发表于 2019-3-23 10:06:20

snaker 发表于 2019-3-23 08:17
数据不完整是什么意思

我用我那段代码去爬取你的这个网址，结果就是不完整的，我想要把那段代码完善，你这个连接里面的数据我要怎么取解码呢？

水柔炎 · 发表于 2019-3-23 10:09:50

snaker 发表于 2019-3-23 08:17
数据不完整是什么意思

在python中怎么解析json的数据格式，还希望大佬指点指点

账号		自动登录	找回密码
密码			立即注册

python怎么爬取豆瓣中完整的评论

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块