鱼C论坛

 找回密码
 立即注册
查看: 1886|回复: 5

Python如何用爬虫抓取出ul中的数据

[复制链接]
发表于 2023-8-22 17:27:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 世味 于 2023-8-22 18:06 编辑

大佬们求问,想爬取王者荣耀全皮肤图片,不知道怎么把ul中的皮肤名称提取出来?

我是分割线---------------------------------------------------------------------------------------------------------------------------------

感谢大佬们的回复,后续我查找了一下,用lxml.xpath做定位就能把名称取出来
问题图片.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-8-22 17:27:42 | 显示全部楼层

回帖奖励 +7 鱼币

你可以使用Python的爬虫库来抓取ul中的数据。首先,你需要安装并导入BeautifulSoup库,它可以帮助你解析HTML页面。然后,你可以使用requests库来发送HTTP请求并获取页面内容。

下面是一个示例代码,演示如何抓取ul中的皮肤名称:
import requests
from bs4 import BeautifulSoup

# 发送HTTP请求并获取页面内容
url = 'https://example.com'  # 将URL替换为你要抓取的页面URL
response = requests.get(url)
content = response.text

# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(content, 'html.parser')

# 找到ul标签
ul = soup.find('ul')

# 找到所有的li标签
li_list = ul.find_all('li')

# 提取皮肤名称
for li in li_list:
    skin_name = li.text
    print(skin_name)

请注意将URL替换为你要抓取的页面URL。这段代码首先发送HTTP请求并获取页面内容,然后使用BeautifulSoup解析页面内容。接下来,它找到ul标签,并使用find_all方法找到所有的li标签。最后,它使用text属性提取每个li标签中的文本内容,并打印出来。

希望对你有帮助!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2023-8-22 17:28:30 | 显示全部楼层
如果要使用爬虫抓取ul中的数据,你可以使用Python的爬虫库(如Requests、BeautifulSoup或Scrapy)来实现。这里以使用Requests和BeautifulSoup库为例来说明。

假设你要抓取的网页源码中有一个ul列表,其中包含了王者荣耀全皮肤的名称。首先,你需要发送HTTP请求获取网页的HTML代码,然后使用BeautifulSoup来解析HTML并提取出ul中的皮肤名称。

下面是一个简单的示例代码:
import requests
from bs4 import BeautifulSoup

url = "这里填写你要抓取的网页地址"
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, 'html.parser')
ul = soup.find('ul')

skin_names = []
for li in ul.find_all('li'):
    skin_name = li.text.strip()
    skin_names.append(skin_name)

print(skin_names)

你需要将url替换为你要抓取的网页地址。这段代码会根据指定的标签名查找ul元素,并遍历其中的每个li元素,提取出皮肤名称并存储到skin_names列表中。最后,输出skin_names列表即可得到提取的皮肤名称。

请注意,具体的网页结构可能因网站而异,你需要根据目标网页的实际情况调整代码中的选择器(例如,修改ul.find_all('li')中的选择器),以确保能够正确提取出皮肤名称。

希望能对你有所帮助!如有任何进一步的问题,请随时提问。
如果问题已经解决,请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-8-22 17:44:07 | 显示全部楼层
陶远航 发表于 2023-8-22 17:28
如果要使用爬虫抓取ul中的数据,你可以使用Python的爬虫库(如Requests、BeautifulSoup或Scrapy)来实现。 ...

只取到了上层的,下层的没有取到这个应该怎么做呢 图片.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-8-22 17:50:16 | 显示全部楼层
isdkz 发表于 2023-8-22 17:27
你可以使用Python的爬虫库来抓取ul中的数据。首先,你需要安装并导入BeautifulSoup库,它可以帮助你解析HTM ...

大佬,这里还是取不到,不清楚我应该怎么改
图片.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-8-22 18:01:11 | 显示全部楼层
本帖最后由 世味 于 2023-8-22 18:04 编辑

done
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-21 18:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表