鱼C论坛

 找回密码
 立即注册
查看: 3126|回复: 18

[已解决]selenium框架爬取虎牙主播的粉丝信息

[复制链接]
发表于 2018-11-29 09:44:51 | 显示全部楼层
from selenium import webdriver

browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
num=browser.find_element_by_css_selector('#activityCount')
print(num.text)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 14:03:37 | 显示全部楼层
十六是只仙 发表于 2018-11-29 14:02
请问activityCount在哪里找的

橘黄色订阅,不是粉丝数么
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 14:30:12 | 显示全部楼层    本楼为最佳答案   
from selenium import webdriver
from bs4 import BeautifulSoup
browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
soup=BeautifulSoup(browser.page_source,'lxml')
for each in soup.find(id="J_weekRankList").find_all('li'):
    try:
        print(each.text)
    except:
        pass
有的等级信息在tag里,自己提取下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 15:15:37 | 显示全部楼层

你没有lxml库么,不行换个
'lxml'换成'html.parser'
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 15:42:32 | 显示全部楼层
我的IDLE和PYCHARM都行
1.png
2.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 15:43:15 | 显示全部楼层
你得设置pycharm运行关联控制台
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 17:20:03 | 显示全部楼层
保存文件可以,你也可以尝试写入数据库
from selenium import webdriver
from bs4 import BeautifulSoup
browser=webdriver.Chrome()
browser.get('https://www.huya.com/mswztv')
soup=BeautifulSoup(browser.page_source,'lxml')
for each in soup.find(id="J_weekRankList").find_all('li'):
    try:
        each = each.select("span[class='week-rank-name J_name']")
        print(each[0].text)
    except:
        pass
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-29 17:29:30 | 显示全部楼层
十六是只仙 发表于 2018-11-29 17:28
您好,我还有一个问题,就是
当我第一次访问get到数据是正常的
但是第二次在进行,就得不到 li 了

没遇到
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-11-2 22:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表