鱼C论坛

 找回密码
 立即注册
查看: 8687|回复: 34

[技术交流] [复习笔记]---Xpath数据解析,大致介绍

[复制链接]
发表于 2019-9-27 23:42:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Stubborn 于 2019-9-28 00:22 编辑

前面的帖子已经有介绍了Request,知道如何向一个url发送GET或者POST请求了,然而,当我们得到响应体,是一个HTML体,也就是网页的源码,我们应该怎么提取自己需要的信息呢。

下面贴一个简单的Xpath使用Demo
  1. # -*- coding: utf-8 -*-
  2. # !/usr/bin/python3
  3. """
  4. Created 2019-9-27
  5. @author: 1263270345@qq.com / Alex
  6. """
  7. # 如何使用Xpath简单demo
  8. import requests
  9. from lxml import etree
  10. response = requests.get(url="https://movie.douban.com/top250").text
  11. html = etree.HTML(response)
  12. li_list = html.xpath('//ol[@class="grid_view"]/li')
  13. for li in li_list:
  14.     a_href = li.xpath("./div/div[1]/a/@href")
  15.     img_alt = li.xpath("./div/div[1]/a/img/@alt")
  16.     comments_number = li.xpath("./div/div[2]/div[2]/div/span[4]/text()")
  17.     move_comment = li.xpath("./div/div[2]/div[2]/p[2]/span/text()")
复制代码


下面分享,记得结合简单Demo一起看哦

游客,如果您要查看本帖隐藏内容请回复


结语,到这里,Xpath介绍完了,渔友们可以结合前面的Request + Xpath来采集网页了。
课后练习题,有兴趣的朋友可以去练习下
        1. 腾讯招聘 数据获取
                采集网址:https://careers.tencent.com/search.html
                采集目标:职位名字 职位简介 工作职责 工作要求
                采集要求:
                        * 必须使用XPath来提取数据
                        * 数据保存到本地,最好是csv
            * 必须使用函数式的编程
       
        2. 豆瓣Top250数据提取  
                采集网址:https://movie.douban.com/top250
                采集目标:剧情简介 电影名称 电影图片 电影评分  评价人数
                采集要求:
                        * 由于这里介绍已经有代码,所以请尝试,直接xpath需要的内容,不提取li标签对
                        * 必须使用XPath来提取数据
                        * 必须使用函数式编程 尽量使用面向对象式编程
                        * 数据保存到本地,最好是csv

        3. 猫眼电影:
                采集网址:https://maoyan.com/board/4
                采集目标:电影名称 电影图片链接 主演  上映时间        电影评分
                采集要求:
                        * 必须使用XPath来提取数据
                        * 必须使用函数式编程 尽量使用面向对象式编程
                        * 数据保存到本地,最好是csv

评分

参与人数 3荣誉 +16 鱼币 +14 贡献 +12 收起 理由
文静 + 5 + 5 + 3 感谢楼主无私奉献!
摘星之云 + 5 + 3 + 3 无条件支持楼主!
zltzlt + 6 + 6 + 6

查看全部评分

本帖被以下淘专辑推荐:

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-8-4 09:54:00 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-7-13 00:48:14 | 显示全部楼层
回复
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-4-25 15:51:23 | 显示全部楼层
学习
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-8-14 18:57:27 | 显示全部楼层
向楼主多学习
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-5 15:40:02 | 显示全部楼层
看不了额
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-5 15:38:48 | 显示全部楼层
继续学习
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-2 17:40:49 | 显示全部楼层
1
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-3-28 14:21:59 | 显示全部楼层
多谢大神,来看一下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 16:31:36 | 显示全部楼层
学习
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-3-22 03:12:25 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-3-21 22:28:12 From FishC Mobile | 显示全部楼层
可惜xpath太耗系统资源了,都不能写多线程爬虫
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-21 22:22:37 | 显示全部楼层
xpath 我想学下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-17 13:21:33 | 显示全部楼层
回复了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-17 13:21:02 | 显示全部楼层
学习下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-2 15:27:19 | 显示全部楼层
看看
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-3-2 15:17:13 | 显示全部楼层
666
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-1-27 22:29:10 | 显示全部楼层
呆家学习
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 18:43:50 | 显示全部楼层
谢谢分享
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-5 18:05:37 | 显示全部楼层
xiangkan
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-4-1 18:45

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表