豆瓣爬取评论的时候有一个展开就是评论爬取不全如何处理呀

糊涂windy · 发表于 2018-8-12 10:54:31

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import bs4
#打开网页
def open_url(url):
headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; rv:61.0) Gecko/20100101 Firefox/61.0'
}
res = requests.get(url,headers = headers)

return res
#找到影评的标签
def find_comments(res):
soup = bs4.BeautifulSoup(res.text,'html.parser')

comments = []
targets = soup.find_all('div',class_ = 'short-content')
for each in targets:
      comments.append(each.text.strip()+'\n')
return comments
#获取影评的页数
def find_depth(res):
soup = bs4.BeautifulSoup(res.text,'html.parser')
depth = soup.find('span',class_ = 'next').previous_sibling.previous_sibling.text

return int(depth)
#获取电影的编号
def get_name_id(host):
name_id = host.split('/')[4]
return str(name_id)

def main():
host = 'https://movie.douban.com/subject/{}/reviews'.format(get_name_id('https://movie.douban.com/subject/26322774/reviews'))
res = open_url(host)
depth = find_depth(res)
results = []
for i in range(depth):
      url = host + '?start=' + str(i*20)
      res = open_url(url)
      comments = find_comments(res)
      results.extend(comments)
with open('逐梦演艺圈评论.txt','w',encoding='utf-8') as f:
      for each in results:
         f.write(each)

if __name__ =='__main__':
main()

这个主要是模仿的小甲鱼的爬取豆瓣top250的例子
现在就是爬取结果是图片那个样子
主要是第二张图的那个展开怎么处理呀
或者说下这个问题叫什么呀我也好去百度不过要是能解决那最好了
求大神指导呀

糊涂windy · 发表于 2018-8-12 13:03:06

来个大佬求救呀

故梦L · 发表于 2018-8-12 17:29:35

本帖最后由故梦L 于 2018-8-12 17:30 编辑

提取文本时加上replace('(展开)','')

comments.append(each.text.strip().replace('(展开)','')+'\n')

复制代码

糊涂windy · 发表于 2018-8-12 19:09:45

故梦L 发表于 2018-8-12 17:29
提取文本时加上replace('(展开)','')

谢谢你的回答
你可能理解错了，我的意思是这个评论主要展开里面还有内容，我没表达清楚

Charles未晞 · 发表于 2018-8-12 21:13:46

给个链接的例子？我这打开全是没有展开的。。。

糊涂windy · 发表于 2018-8-12 21:55:19

这些是精彩评论每个都有一个链接打开就看到展开的内容
提取链接应该就可以是吧
刚刚爬短评ip暂时访问不了豆瓣了

糊涂windy · 发表于 2018-8-12 21:55:59

Charles未晞发表于 2018-8-12 21:13
给个链接的例子？我这打开全是没有展开的。。。

楼下回复你了

Charles未晞 · 发表于 2018-8-12 22:01:06

糊涂windy 发表于 2018-8-12 21:55
楼下回复你了

豆瓣短评现在登录之后也只显示前500条了。。。这么点数据ip怎么会被封。。。

Charles未晞 · 发表于 2018-8-12 22:03:34

糊涂windy 发表于 2018-8-12 21:55
楼下回复你了

你是说整篇文章吗。。。。。。。。展开。。。

糊涂windy · 发表于 2018-8-13 09:50:07

Charles未晞发表于 2018-8-12 22:03
你是说整篇文章吗。。。。。。。。展开。。。

是的

蛊惑的心 · 发表于 2018-8-14 12:07:06

你是想说为什么爬得网页里只有展开却没有展开后的内容吗？这个小甲鱼视频里有讲，因为它是动态加载的（好像是叫异步加载？），原网页是没有的，当你触发一些操作后，会将其他文件的内容再添加进去
解决方法：
1.优先推荐看小甲鱼的爬网易云音乐的视频：里面有讲怎么找文件
2.使用selenium渲染js后，再得到源码（可能会遇到很多问题，但一般百度就有解决方法）

账号		自动登录	找回密码
密码			立即注册

豆瓣爬取评论的时候有一个展开就是评论爬取不全如何处理呀

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块