[复习笔记]---Xpath数据解析，大致介绍

Stubborn · 发表于 2019-9-27 23:42:10

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Stubborn 于 2019-9-28 00:22 编辑

前面的帖子已经有介绍了Request，知道如何向一个url发送GET或者POST请求了，然而，当我们得到响应体，是一个HTML体，也就是网页的源码，我们应该怎么提取自己需要的信息呢。

下面贴一个简单的Xpath使用Demo

# -*- coding: utf-8 -*-

# !/usr/bin/python3

"""

Created 2019-9-27

@author: 1263270345@qq.com / Alex

"""

# 如何使用Xpath简单demo

import requests

from lxml import etree

response = requests.get(url="https://movie.douban.com/top250").text

html = etree.HTML(response)

li_list = html.xpath('//ol[@class="grid_view"]/li')

for li in li_list:

a_href = li.xpath("./div/div[1]/a/@href")

img_alt = li.xpath("./div/div[1]/a/img/@alt")

comments_number = li.xpath("./div/div[2]/div[2]/div/span[4]/text()")

move_comment = li.xpath("./div/div[2]/div[2]/p[2]/span/text()")
复制代码

下面分享，记得结合简单Demo一起看哦

游客，如果您要查看本帖隐藏内容请回复

结语，到这里，Xpath介绍完了，渔友们可以结合前面的Request + Xpath来采集网页了。
课后练习题，有兴趣的朋友可以去练习下
1. 腾讯招聘数据获取
采集网址：https://careers.tencent.com/search.html
采集目标：职位名字职位简介工作职责工作要求
采集要求：
* 必须使用XPath来提取数据
* 数据保存到本地，最好是csv
         * 必须使用函数式的编程

2. 豆瓣Top250数据提取
采集网址：https://movie.douban.com/top250
采集目标：剧情简介电影名称电影图片电影评分  评价人数
采集要求：
* 由于这里介绍已经有代码，所以请尝试，直接xpath需要的内容，不提取li标签对
* 必须使用XPath来提取数据
* 必须使用函数式编程尽量使用面向对象式编程
* 数据保存到本地，最好是csv

3. 猫眼电影：
采集网址：https://maoyan.com/board/4
采集目标：电影名称电影图片链接主演  上映时间电影评分
采集要求：
* 必须使用XPath来提取数据
* 必须使用函数式编程尽量使用面向对象式编程
* 数据保存到本地，最好是csv

江南野外的狸 · 发表于 2021-8-4 09:54:00

ee_ · 发表于 2021-7-13 00:48:14

xigarong · 发表于 2021-4-25 15:51:23

学习

天命也有我来定 · 发表于 2020-8-14 18:57:27

向楼主多学习

dtzhangzy · 发表于 2020-6-5 15:40:02

看不了额

dtzhangzy · 发表于 2020-6-5 15:38:48

继续学习

你怕是在梦里哦 · 发表于 2020-4-2 17:40:49

liugang8332 · 发表于 2020-3-28 14:21:59

多谢大神，来看一下

弧光 · 发表于 2020-3-27 16:31:36

学习

catwine1990 · 发表于 2020-3-22 03:12:25

kirte · 发表于 2020-3-21 22:28:12

可惜xpath太耗系统资源了，都不能写多线程爬虫

prefect · 发表于 2020-3-21 22:22:37

xpath 我想学下

TomsShelby · 发表于 2020-3-17 13:21:33

回复了

TomsShelby · 发表于 2020-3-17 13:21:02

学习下

yjsx86 · 发表于 2020-3-2 15:27:19

看看

2008ill · 发表于 2020-3-2 15:17:13

youcke · 发表于 2020-1-27 22:29:10

呆家学习

prettygirl13145 · 发表于 2020-1-7 18:43:50

谢谢分享

xiaozhang311 · 发表于 2020-1-5 18:05:37

xiangkan

账号		自动登录	找回密码
密码			立即注册

[技术交流] [复习笔记]---Xpath数据解析，大致介绍

马上注册，结交更多好友，享用更多功能^_^

评分

本帖被以下淘专辑推荐:

浏览过的版块