爬虫 给个大概思路就好 谢谢了
https://bbs.mihoyo.com/ys/这个网站怎么爬? 本帖最后由 YunGuo 于 2021-2-14 01:25 编辑
你看我发的图,看你按了f12后是不是会直接跳转到这个地方,然后看不到网页内容,如果是,就点击我发的图点那个红框中的停用断点(或者快捷键Ctrl+F8)。如果不是这个问题,请麻烦你发图,不然不知道你的问题。。。。另外,小白到这个程度,不知道什么是断点,什么是抓包分析,那么建议你去找这方面的教程学一学,毕竟都是爬虫基础,别走还没学会,就去跑。 本帖最后由 YunGuo 于 2021-2-9 15:37 编辑
你要爬什么?帖子?还是图片?
大部分爬虫思路都是这样:
首先你得分析网站的结构,数据是动态加载的?还是存在网页源代码中的?
如果是存在网页源代码中,那就简单,直接请求到数据然后去提取就行;
如果是动态加载,数据就是通过浏览器渲染后才显示在网页中的,这就说明,数据是有另外单独的接口的,找到这个数据接口然后去请求接口就可以拿到数据。
一般找数据接口常用的方法就是关键词查找,通过一些特定关键词快速定位数据接口,比如你这个原神社区的帖子数据,关键词就可以是page;
那么为什么是page?因为这个论坛数据是通过ajax请求的(点击加载更多时网站没有刷新,直接加载出来了数据,这就是异步请求的特征),既然这样,那么它应该是有翻页参数的,通过这个参数关键词就可以快速定位到数据接口
最后去请求这个接口,带上必须的参数,就可以拿到数据。
这个论坛,不管是帖子,还是同人图片(暂时我只分析了这个两个),你都可以用上面这个方法,关键词找接口,请求接口,拿到数据。
最后,附上接口,你可以先自己试试,再看我找到的接口。
论坛帖子:https://api-static.mihoyo.com/takumi/apihub/wapi/webHome?gids=2&page=1&page_size=20
同人图帖子:https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=29&gids=2&is_good=false&is_hot=false&page_size=20&sort_type=1
YunGuo 发表于 2021-2-9 14:55
你要爬什么?帖子?还是图片?
大部分爬虫思路都是这样:
首先你得分析网站的结构,数据是动态加载的?还 ...
为什么我f12打不开的?
先开f12在跳转也不行 应该是网站的禁止调试的代码吧。先停用断点,再刷新整个网页,就可以去抓包分析了。
YunGuo 发表于 2021-2-13 16:12
应该是网站的禁止调试的代码吧。先停用断点,再刷新整个网页,就可以去抓包分析了。
不会呀.停用断点和抓包分析是什么意思? chrome 浏览器 直接 右键 --> 查看网页源代码 谷歌浏览器毫无压力,直接F12或者右击都可以 极臻 发表于 2021-2-16 18:34
谷歌浏览器毫无压力,直接F12或者右击都可以
为什么我不行,我也是谷歌呀。 YunGuo 发表于 2021-2-14 01:24
你看我发的图,看你按了f12后是不是会直接跳转到这个地方,然后看不到网页内容,如果是,就点击我发的图点 ...
谢谢了
页:
[1]