鱼C论坛

 找回密码
 立即注册
查看: 2578|回复: 18

[已解决]selenium框架爬取虎牙主播的粉丝信息

[复制链接]
发表于 2018-11-28 20:54:01 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最近我有一个项目,就是爬取主播粉丝信息,但是我发现网页源代码里面没有涉及粉丝这块信息,但是检查的话,就有,请问大佬们,我应该怎么操作???

6{K933J[8UT`_4Z`TP7MQ{4.jpg 28MXD]U6JXBJ[8@JO%B]{BR.png
最佳答案
2018-11-29 14:30:12
from selenium import webdriver
from bs4 import BeautifulSoup
browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
soup=BeautifulSoup(browser.page_source,'lxml')
for each in soup.find(id="J_weekRankList").find_all('li'):
    try:
        print(each.text)
    except:
        pass
有的等级信息在tag里,自己提取下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-28 23:12:33 | 显示全部楼层
看network哪里。
搜索fanlist然后追踪js的语句,找到请求的链接,
或者直接复制粉丝数进行搜索
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 09:44:51 | 显示全部楼层
from selenium import webdriver

browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
num=browser.find_element_by_css_selector('#activityCount')
print(num.text)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 14:02:26 | 显示全部楼层
塔利班 发表于 2018-11-29 09:44
from selenium import webdriver

browser=webdriver.Chrome()

请问activityCount在哪里找的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 14:03:37 | 显示全部楼层
十六是只仙 发表于 2018-11-29 14:02
请问activityCount在哪里找的

橘黄色订阅,不是粉丝数么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 14:12:56 | 显示全部楼层
塔利班 发表于 2018-11-29 14:03
橘黄色订阅,不是粉丝数么

QQ图片20181129141017.png
我是需要爬取正在看直播的粉丝的所有信息,比如他们等级,姓名等等
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 14:30:12 | 显示全部楼层    本楼为最佳答案   
from selenium import webdriver
from bs4 import BeautifulSoup
browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
soup=BeautifulSoup(browser.page_source,'lxml')
for each in soup.find(id="J_weekRankList").find_all('li'):
    try:
        print(each.text)
    except:
        pass
有的等级信息在tag里,自己提取下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 15:12:02 | 显示全部楼层
塔利班 发表于 2018-11-29 14:30
from selenium import webdriver
from bs4 import BeautifulSoup
browser=webdriver.Chrome()

QQ图片20181129150816.png
有错啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 15:15:37 | 显示全部楼层

你没有lxml库么,不行换个
'lxml'换成'html.parser'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 15:31:11 | 显示全部楼层
塔利班 发表于 2018-11-29 15:15
你没有lxml库么,不行换个
'lxml'换成'html.parser'

我安装库啦 QQ图片20181129153029.png
但是什么都没有抓到啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 15:42:32 | 显示全部楼层
我的IDLE和PYCHARM都行
1.png
2.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 15:43:15 | 显示全部楼层
你得设置pycharm运行关联控制台
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 16:32:55 | 显示全部楼层
塔利班 发表于 2018-11-29 15:43
你得设置pycharm运行关联控制台

哇!实在太感谢了。还想请教下,假如我只想打印第一个span的内容,我把try里面内容换成了each = each.select("span[class='week-rank-name J_name']")
        print(each.text)
但好像运行不成功......
还有,我在run里面关联console了,但是跑程序的时候只会在console里面打印出来,这种数据可以保留到本地吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 17:20:03 | 显示全部楼层
保存文件可以,你也可以尝试写入数据库
from selenium import webdriver
from bs4 import BeautifulSoup
browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
soup=BeautifulSoup(browser.page_source,'lxml')
for each in soup.find(id="J_weekRankList").find_all('li'):
    try:
        each = each.select("span[class='week-rank-name J_name']")
        print(each[0].text)
    except:
        pass
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 17:28:04 | 显示全部楼层
塔利班 发表于 2018-11-29 17:20
保存文件可以,你也可以尝试写入数据库
from selenium import webdriver
from bs4 import BeautifulSoup
...

您好,我还有一个问题,就是
当我第一次访问get到数据是正常的 VF6S}R87V%12NXVE)LP0}_7.png
但是第二次在进行,就得不到 li 了 )H_)RDIB_5UAUROYDUX14.png
请问这是为什么?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 17:29:30 | 显示全部楼层
十六是只仙 发表于 2018-11-29 17:28
您好,我还有一个问题,就是
当我第一次访问get到数据是正常的
但是第二次在进行,就得不到 li 了

没遇到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 17:39:14 | 显示全部楼层

哎,那我再开个帖子问一下,凉啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-29 18:10:19 | 显示全部楼层

.....不好意思,再请教一个问题,如果我要爬取该直播间中参与讨论的用户昵称、用户头像、用户等级、用户年龄、地理位置、用户描述、用户性别、发表评论的内容等信息;就是这种动态信息,您刚才的方法就不可以用了,比如在直播间https://www.huya.com/saonan,抓取评论用户的信息?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-9-22 15:14:59 | 显示全部楼层
十六是只仙 发表于 2018-11-29 17:39
哎,那我再开个帖子问一下,凉啊

最近还在弄虎牙吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-13 07:51

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表