|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Stubborn 于 2019-9-28 00:22 编辑
前面的帖子已经有介绍了Request,知道如何向一个url发送GET或者POST请求了,然而,当我们得到响应体,是一个HTML体,也就是网页的源码,我们应该怎么提取自己需要的信息呢。
下面贴一个简单的Xpath使用Demo
- # -*- coding: utf-8 -*-
- # !/usr/bin/python3
- """
- Created 2019-9-27
- @author: 1263270345@qq.com / Alex
- """
- # 如何使用Xpath简单demo
- import requests
- from lxml import etree
- response = requests.get(url="https://movie.douban.com/top250").text
- html = etree.HTML(response)
- li_list = html.xpath('//ol[@class="grid_view"]/li')
- for li in li_list:
- a_href = li.xpath("./div/div[1]/a/@href")
- img_alt = li.xpath("./div/div[1]/a/img/@alt")
- comments_number = li.xpath("./div/div[2]/div[2]/div/span[4]/text()")
- move_comment = li.xpath("./div/div[2]/div[2]/p[2]/span/text()")
复制代码
下面分享,记得结合简单Demo一起看哦
结语,到这里,Xpath介绍完了,渔友们可以结合前面的Request + Xpath来采集网页了。
课后练习题,有兴趣的朋友可以去练习下
1. 腾讯招聘 数据获取
采集网址:https://careers.tencent.com/search.html
采集目标:职位名字 职位简介 工作职责 工作要求
采集要求:
* 必须使用XPath来提取数据
* 数据保存到本地,最好是csv
* 必须使用函数式的编程
2. 豆瓣Top250数据提取
采集网址:https://movie.douban.com/top250
采集目标:剧情简介 电影名称 电影图片 电影评分 评价人数
采集要求:
* 由于这里介绍已经有代码,所以请尝试,直接xpath需要的内容,不提取li标签对
* 必须使用XPath来提取数据
* 必须使用函数式编程 尽量使用面向对象式编程
* 数据保存到本地,最好是csv
3. 猫眼电影:
采集网址:https://maoyan.com/board/4
采集目标:电影名称 电影图片链接 主演 上映时间 电影评分
采集要求:
* 必须使用XPath来提取数据
* 必须使用函数式编程 尽量使用面向对象式编程
* 数据保存到本地,最好是csv |
评分
-
| 参与人数 3 | 荣誉 +16 |
鱼币 +14 |
贡献 +12 |
收起
理由
|
文静
| + 5 |
+ 5 |
+ 3 |
感谢楼主无私奉献! |
摘星之云
| + 5 |
+ 3 |
+ 3 |
无条件支持楼主! |
zltzlt
| + 6 |
+ 6 |
+ 6 |
|
查看全部评分
|