鱼C论坛

 找回密码
 立即注册
查看: 1347|回复: 2

关于都豆瓣动态爬虫,应该怎么样去解决

[复制链接]
发表于 2019-4-9 17:13:47 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
这个是URL:https://movie.douban.com/annual/2018?source=navigation#1
向下滑动是,会动态的加载,这种应该怎么爬虫js加载后的页面数据。
用selenium + 无界面浏览器吗?

  1. <!doctype html>

  2. <html lang="zh-cmn-Hans">

  3.     <head>
  4.         <meta charset="utf-8">
  5.         <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  6.         <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no, viewport-fit=cover">
  7.         <meta name="apple-mobile-web-app-capable" content="yes">
  8.         <link rel="shortcut icon" href="https://img3.doubanio.com/favicon.ico">
  9.         <meta name="format-detection" content="telephone=no">
  10.         <meta name="url_name" content="movie_annual2018">
  11.         <meta name="user_id" content="">
  12.         <meta property="og:site_name" content="豆瓣" />
  13.         <meta property="og:title" content="【豆瓣2018年度电影榜单】" />
  14.         <meta property="og:description" content="汇聚今年最好的电影,这些高分佳作你千万别错过!" />
  15.         <meta property="og:url" content="https://movie.douban.com/annual/2018?source=broadcast" />
  16.         <meta property="og:image" content="https://img3.doubanio.com/img/files/file-1545322594.jpg" />
  17.         <title>豆瓣2018年度电影榜单&#12539;携程冠名</title>
  18.         <script>
  19.             window.ITHIL = {};
  20.             ITHIL.isFrodo = 'False' === 'True';
  21.             ITHIL.isWechat = 'False' === 'True';
  22.         </script>
  23.         <script>
  24.             var _hmt = _hmt || [];
  25.             (function() {
  26.                 var hm = document.createElement("script");
  27.                 var hash = '2018' === '2018' ? '6e5dcf7c287704f738c7febc2283cf0c' : '16a14f3002af32bf3a75dfe352478639'
  28.                 hm.src = "https://hm.baidu.com/hm.js?" + hash;
  29.                 var s = document.getElementsByTagName("script")[0];
  30.                 s.parentNode.insertBefore(hm, s);
  31.             })();
  32.         </script>
  33.     </head>
  34.     <body>
  35.         <div id="app"></div>
  36.         <script src="https://img3.doubanio.com/f/ithil/31683c94fc5c3d40cb6e3d541825be4956a1220d/js/lib/es5-shim.min.js"></script>
  37.         <script src="https://img3.doubanio.com/f/ithil/a7de8db438da176dd0eeb59efe46306b39f1261f/js/lib/es6-shim.min.js"></script>
  38.             <script src="https://img3.doubanio.com/dae/cdnlib/libs/jweixin/1.0.0/jweixin.js"></script>
  39.                 <script src="https://img3.doubanio.com/f/ithil/b92012acc8222b31e7f1307c154fdb90b56d64d1/gen/ithil2018.bundle.js"></script>
  40.             <div alt="main-pic" style="display: none">
  41.                 <img type="hidden" alt="cover" src="https://img3.doubanio.com/img/files/file-1545322594.jpg">
  42.             </div>
  43.     </body>
  44. </html>
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-4-9 18:41:35 | 显示全部楼层
  1. https://movie.douban.com/ithil_j/activity/movie_annual2018/widget/9/comments?random=0&start=0&limit=6
复制代码

请求上面这个地址,
修改最后的limit参数就行了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-9 18:43:10 | 显示全部楼层
wongyusing 发表于 2019-4-9 18:41
请求上面这个地址,
修改最后的limit参数就行了

这里面好像都是用户评论的数据,我稍微看了一点
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-15 04:19

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表