鱼C论坛

 找回密码
 立即注册
查看: 1326|回复: 8

python怎么爬取豆瓣中完整的评论

[复制链接]
发表于 2019-3-22 13:48:50 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
#  -*- coding:utf-8 -*-
import urllib.request
import urllib.parse


def tieba_spidr(url, begin_page, end_page):
    full_url = url
    html = load_page(full_url, 'douban')
    write_page(html, 'douban')

def load_page(url, filename):
    headers = {
        "User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
    }
    request = urllib.request.Request(url, headers=headers)
    return urllib.request.urlopen(request).read()

def write_page(html, filename):
    with open(filename, 'w', encoding='utf-8') as file:
        file.write(html.decode('utf-8'))

if __name__ == '__main__':
    begin_page = 40
    end_page = 80
    url='https://movie.douban.com/subject/27060077/reviews?'
    key = urllib.parse.urlencode({"start":40})
    url = url+key
    print(url)
    tieba_spidr(url, begin_page, end_page)

这是运行后的结果截图

这是运行后的结果截图
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-3-22 17:59:47 | 显示全部楼层
用Chrome抓取一下看看

                               
登录/注册后可看大图


得到的是Json的数据

                               
登录/注册后可看大图


URL也在王网页里

                               
登录/注册后可看大图
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-22 18:07:41 | 显示全部楼层
再爬取一下这个网址:https://movie.douban.com/j/review/10036646/full
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-22 21:14:30 | 显示全部楼层
snaker 发表于 2019-3-22 18:07
再爬取一下这个网址:https://movie.douban.com/j/review/10036646/full

数据很不完整
少了很多
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-22 21:15:56 | 显示全部楼层
数据很不完整,内容少了很多

数据很不完整

数据很不完整
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-23 08:17:03 | 显示全部楼层
数据不完整是什么意思

                               
登录/注册后可看大图
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-23 10:06:20 | 显示全部楼层
snaker 发表于 2019-3-23 08:17
数据不完整是什么意思

我用我那段代码去爬取你的这个网址,结果就是不完整的,我想要把那段代码完善,你这个连接里面的数据我要怎么取解码呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-23 10:09:50 | 显示全部楼层
snaker 发表于 2019-3-23 08:17
数据不完整是什么意思

在python中怎么解析json的数据格式,还希望大佬指点指点
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-14 17:42

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表