关于爬虫爬取信息的问题

foreverc8 · 发表于 2019-10-18 12:16:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

想做一个dota2的数据分析，然而在做英雄与英雄id对应列表时出现了一个问题，图片中红色部分是我想提取的数据，但是我试用了很久的div与class的方法也没有提取出来。求大佬指教

XiaoPaiShen · 发表于 2019-10-18 12:30:38

你用什么来提取，把你的代码贴一下，才好回答

foreverc8 · 发表于 2019-10-18 12:57:31

XiaoPaiShen 发表于 2019-10-18 12:30
你用什么来提取，把你的代码贴一下，才好回答

import requests
import bs4

def get_url(url):
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}

res = requests.get(url,headers=headers)
return res

def main():
url = 'https://www.opendota.com/heroes/1'
hero_list = []
html = get_url(url)
soup = bs4.BeautifulSoup(html.text,'html.parser')
targets = soup.find_all("div", class_="sc-kZmsYB WTZVj")
for each in targets:
      print(each)

if __name__ == '__main__':
main()

Nicestrange · 发表于 2019-10-18 12:58:49

res=BeautifulSoup(requests.get(url).text,"html").find_all("div",class_="这里是你要提取的文字的class")

复制代码

foreverc8 · 发表于 2019-10-18 13:26:35

Nicestrange 发表于 2019-10-18 12:58

这个跟我之前的差不太多，除了我多了个html.parser，而且也没有运行出来啊

Y0uWill_1Will · 发表于 2019-10-18 14:47:32

有可能是动态加载的？

foreverc8 · 发表于 2019-10-18 16:12:27

Y0uWill_1Will 发表于 2019-10-18 14:47
有可能是动态加载的？

好像不是动态加载，而且我也不大清楚动态加载该咋弄

Stubborn · 发表于 2019-10-18 17:09:10

爬虫保持一个习惯，右键，查看网页源码，需要的信息是否存在

XiaoPaiShen · 发表于 2019-10-18 22:11:25

foreverc8 发表于 2019-10-18 13:26
这个跟我之前的差不太多，除了我多了个html.parser，而且也没有运行出来啊

我们根本无法爬取该网站的内容，看看根节点的内容如下

import requests
import bs4
def get_url(url):
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
res = requests.get(url,headers=headers)
return res
def main():
url = 'https://www.opendota.com/heroes/1'
hero_list = []
html = get_url(url)
html.encoding = 'utf-8'
soup = bs4.BeautifulSoup(html.text,'html.parser')
targets = soup.html.body.div
print(targets.prettify())
if __name__ == '__main__':
main()

复制代码

TCY · 发表于 2019-10-20 12:02:18

如果是这样，可能是动态加载，这时就要用selenium（具体配置请上网搜）

wongyusing · 发表于 2019-10-21 23:13:08

这个不用bs4的。
直接请求

https://api.opendota.com/api/heroStats?

复制代码

这个地址，可以获取所有英雄的介绍的json数据。
加个header就行了

账号		自动登录	找回密码
密码			立即注册