鱼C论坛

 找回密码
 立即注册
查看: 1137|回复: 11

如何提取想要的数据并写入Excel

[复制链接]
发表于 2019-8-22 10:19:49 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
物业类型:</dt><dd>公寓</dd>

                          <dt class="other-dt">物业费:</dt><dd class="other-dd">4.6元/㎡/月</dd>

                          <dt>总建面积:</dt><dd>189000m2</dd>

                          <dt class="other-dt">总户数:</dt><dd class="other-dd">3089户</dd>

                          <dt>建造年代:</dt><dd>2017年</dd>

                          <dt class="other-dt">停车位:</dt><dd class="other-dd">7430</dd>

                          <dt>容&nbsp;&nbsp;积&nbsp;&nbsp;率:</dt><dd>4.75</dd>

                          <dt class="other-dt">绿化率:</dt><dd class="other-dd">30%(一般)</dd>

                          <dt>开&nbsp;&nbsp;发&nbsp;&nbsp;商:</dt><dd class="dd-column">深圳市万科房地产有限公司</dd>

                          <dt>物业公司:</dt><dd class="dd-column">深圳市万科物业服务有限公司</dd>

                                    <dt>所属商
想要把上述内容写入Excel或者txt,得到如下形式:
物业类型   公寓
物业费      4.6元/㎡/月
....             .......
物业公司    深圳市万科物业服务有限公司


这是从网页上爬下来的,不知道该怎么处理并保存
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-8-22 10:42:38 | 显示全部楼层
import csv
然后在python创建CSV文件
爬取后写入csv文件中
csv文件EXCEL也可以打开
新手一枚,我是用这种方法
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-22 10:46:38 | 显示全部楼层
本帖最后由 jinlovelive 于 2019-8-22 10:54 编辑

bs4解析这个HTML,分两个soup.findAll('dt'),soup.findAll('dd'),然后分别读取text内容并写入EXCEL
  1. import openpyxl
  2. from openpyxl import load_workbook
  3. from bs4 import BeautifulSoup as bs
  4. soup = bs('html页面','lxml')
  5. dt = soup.findAll('dt')
  6. dd = soup.findAll('dd')
  7. wb = load_workbook(r'保存的文件路径')
  8. ws = wb.active()
  9. for i in range(0,len(dt)):ws.cell(i+1,1).value = dt[i].text

  10. for i in range(0,len(dd)):ws.cell(i+1,2).value = dd[i].text

  11. wb.save(r'刚刚的那个路径')
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-22 10:56:02 | 显示全部楼层
83519489 发表于 2019-8-22 10:42
import csv
然后在python创建CSV文件
爬取后写入csv文件中

你可不是新手了,哪儿都有你,都能当助教或者班主任了,大神一枚
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-22 10:57:29 | 显示全部楼层
jinlovelive 发表于 2019-8-22 10:46
bs4解析这个HTML,分两个soup.findAll('dt'),soup.findAll('dd'),然后分别读取text内容并写入EXCEL

这么多代码,就看懂了第一行和最后一行,都是泪啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-22 10:58:24 | 显示全部楼层
yuanyuan4220 发表于 2019-8-22 10:56
你可不是新手了,哪儿都有你,都能当助教或者班主任了,大神一枚

哪里大神了,刚刚就发了一个基础匹配的提问帖子,还没给我审核过
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-22 11:01:08 | 显示全部楼层
jinlovelive 发表于 2019-8-22 10:46
bs4解析这个HTML,分两个soup.findAll('dt'),soup.findAll('dd'),然后分别读取text内容并写入EXCEL

    from bs4 import BeautifulSoup as bs
ModuleNotFoundError: No module named 'bs4'
bs4需要安装吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-22 11:02:29 | 显示全部楼层
83519489 发表于 2019-8-22 10:58
哪里大神了,刚刚就发了一个基础匹配的提问帖子,还没给我审核过

看到了很多题后面都有你的身影我刚从MATLAB转来python
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-22 11:35:10 | 显示全部楼层
yuanyuan4220 发表于 2019-8-22 11:02
看到了很多题后面都有你的身影我刚从MATLAB转来python

要是看不懂前面童鞋的代码,建议你学下requests和BeautifulSoup,很快能掌握。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-22 11:46:43 | 显示全部楼层
空青 发表于 2019-8-22 11:35
要是看不懂前面童鞋的代码,建议你学下requests和BeautifulSoup,很快能掌握。

request我知道,BeautifulSoup是在那一节?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-22 12:36:18 | 显示全部楼层
yuanyuan4220 发表于 2019-8-22 11:46
request我知道,BeautifulSoup是在那一节?

都是在爬虫那块啊,我记得是urllib后面讲的就是这个了吧,毕竟需要解析返回的页面。
bs4模块需要安装,直接pip好了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-22 12:48:12 | 显示全部楼层
jinlovelive 发表于 2019-8-22 12:36
都是在爬虫那块啊,我记得是urllib后面讲的就是这个了吧,毕竟需要解析返回的页面。
bs4模块需要安装, ...

好嘞,谢谢,我先捣鼓捣鼓
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 03:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表