鱼C论坛

 找回密码
 立即注册
查看: 1229|回复: 10

豆瓣爬取评论的时候有一个展开就是评论爬取不全如何处理呀

[复制链接]
发表于 2018-8-12 10:54:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests
import bs4
#打开网页
def open_url(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; rv:61.0) Gecko/20100101 Firefox/61.0'
    }
    res = requests.get(url,headers = headers)

    return res
#找到影评的标签
def find_comments(res):
    soup = bs4.BeautifulSoup(res.text,'html.parser')

    comments = []
    targets = soup.find_all('div',class_ = 'short-content')
    for each in targets:
        comments.append(each.text.strip()+'\n')
    return comments
#获取影评的页数
def find_depth(res):
    soup = bs4.BeautifulSoup(res.text,'html.parser')
    depth = soup.find('span',class_ = 'next').previous_sibling.previous_sibling.text

    return int(depth)
#获取电影的编号
def get_name_id(host):
    name_id = host.split('/')[4]
    return str(name_id)

def main():
    host = 'https://movie.douban.com/subject/{}/reviews'.format(get_name_id('https://movie.douban.com/subject/26322774/reviews'))
    res = open_url(host)
    depth = find_depth(res)
    results = []
    for i in range(depth):
        url = host + '?start=' + str(i*20)
        res = open_url(url)
        comments = find_comments(res)
        results.extend(comments)
    with open('逐梦演艺圈评论.txt','w',encoding='utf-8') as f:
        for each in results:
            f.write(each)

if __name__ =='__main__':
    main()


这个主要是模仿的小甲鱼的爬取豆瓣top250的例子
现在就是爬取结果是图片那个样子
主要是第二张图的那个展开怎么处理呀
或者说下这个问题叫什么呀我也好去百度 不过要是能解决那最好了
求大神指导呀
img1.png
img2.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-8-12 13:03:06 | 显示全部楼层
来个大佬求救呀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-12 17:29:35 | 显示全部楼层
本帖最后由 故梦L 于 2018-8-12 17:30 编辑

提取文本时加上replace('(展开)','')
comments.append(each.text.strip().replace('(展开)','')+'\n')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-12 19:09:45 | 显示全部楼层
故梦L 发表于 2018-8-12 17:29
提取文本时加上replace('(展开)','')

谢谢你的回答
你可能理解错了,我的意思是这个评论主要展开里面还有内容,我没表达清楚
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-12 21:13:46 | 显示全部楼层
给个链接的例子?我这打开全是没有展开的。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2018-8-12 21:55:19 | 显示全部楼层
这些是精彩评论每个都有一个链接打开就看到展开的内容
提取链接应该就可以是吧
刚刚爬短评ip暂时访问不了豆瓣了
im.png
TIM图片20180812215101.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-12 21:55:59 | 显示全部楼层
Charles未晞 发表于 2018-8-12 21:13
给个链接的例子?我这打开全是没有展开的。。。

楼下回复你了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-12 22:01:06 | 显示全部楼层

豆瓣短评现在登录之后也只显示前500条了。。。这么点数据ip怎么会被封。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-12 22:03:34 | 显示全部楼层

你是说整篇文章吗。。。。。。。。展开。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-8-13 09:50:07 | 显示全部楼层
Charles未晞 发表于 2018-8-12 22:03
你是说整篇文章吗。。。。。。。。展开。。。

是的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 12:07:06 | 显示全部楼层
你是想说为什么爬得网页里只有展开却没有展开后的内容吗?这个小甲鱼视频里有讲,因为它是动态加载的(好像是叫异步加载?),原网页是没有的,当你触发一些操作后,会将其他文件的内容再添加进去
解决方法:
1.优先推荐看小甲鱼的爬网易云音乐的视频:里面有讲怎么找文件
2.使用selenium渲染js后,再得到源码(可能会遇到很多问题,但一般百度就有解决方法)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-26 11:53

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表