如何提取想要的数据并写入Excel

yuanyuan4220 · 发表于 2019-8-22 10:19:49

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

物业类型：</dt><dd>公寓</dd>

      <dt class="other-dt">物业费：</dt><dd class="other-dd">4.6元/㎡/月</dd>

      <dt>总建面积：</dt><dd>189000m2</dd>

      <dt class="other-dt">总户数：</dt><dd class="other-dd">3089户</dd>

      <dt>建造年代：</dt><dd>2017年</dd>

      <dt class="other-dt">停车位：</dt><dd class="other-dd">7430</dd>

      <dt>容  积  率：</dt><dd>4.75</dd>

      <dt class="other-dt">绿化率：</dt><dd class="other-dd">30%(一般)</dd>

      <dt>开  发  商：</dt><dd class="dd-column">深圳市万科房地产有限公司</dd>

      <dt>物业公司：</dt><dd class="dd-column">深圳市万科物业服务有限公司</dd>

            <dt>所属商
想要把上述内容写入Excel或者txt，得到如下形式：
物业类型公寓
物业费    4.6元/㎡/月
....          .......
物业公司深圳市万科物业服务有限公司

这是从网页上爬下来的，不知道该怎么处理并保存

83519489 · 发表于 2019-8-22 10:42:38

import csv
然后在python创建CSV文件
爬取后写入csv文件中
csv文件EXCEL也可以打开
新手一枚，我是用这种方法

jinlovelive · 发表于 2019-8-22 10:46:38

本帖最后由 jinlovelive 于 2019-8-22 10:54 编辑

bs4解析这个HTML，分两个soup.findAll('dt')，soup.findAll('dd'),然后分别读取text内容并写入EXCEL

import openpyxl
from openpyxl import load_workbook
from bs4 import BeautifulSoup as bs
soup = bs('html页面','lxml')
dt = soup.findAll('dt')
dd = soup.findAll('dd')
wb = load_workbook(r'保存的文件路径')
ws = wb.active()
for i in range(0,len(dt)):ws.cell(i+1,1).value = dt[i].text
for i in range(0,len(dd)):ws.cell(i+1,2).value = dd[i].text
wb.save(r'刚刚的那个路径')

复制代码

yuanyuan4220 · 发表于 2019-8-22 10:56:02

83519489 发表于 2019-8-22 10:42
import csv
然后在python创建CSV文件
爬取后写入csv文件中

你可不是新手了，哪儿都有你，都能当助教或者班主任了，大神一枚

yuanyuan4220 · 发表于 2019-8-22 10:57:29

jinlovelive 发表于 2019-8-22 10:46
bs4解析这个HTML，分两个soup.findAll('dt')，soup.findAll('dd'),然后分别读取text内容并写入EXCEL

这么多代码，就看懂了第一行和最后一行，都是泪啊

83519489 · 发表于 2019-8-22 10:58:24

yuanyuan4220 发表于 2019-8-22 10:56
你可不是新手了，哪儿都有你，都能当助教或者班主任了，大神一枚

哪里大神了，刚刚就发了一个基础匹配的提问帖子，还没给我审核过

yuanyuan4220 · 发表于 2019-8-22 11:01:08

jinlovelive 发表于 2019-8-22 10:46
bs4解析这个HTML，分两个soup.findAll('dt')，soup.findAll('dd'),然后分别读取text内容并写入EXCEL

from bs4 import BeautifulSoup as bs
ModuleNotFoundError: No module named 'bs4'
bs4需要安装吗？

yuanyuan4220 · 发表于 2019-8-22 11:02:29

83519489 发表于 2019-8-22 10:58
哪里大神了，刚刚就发了一个基础匹配的提问帖子，还没给我审核过

看到了很多题后面都有你的身影

我刚从MATLAB转来python

空青 · 发表于 2019-8-22 11:35:10

yuanyuan4220 发表于 2019-8-22 11:02
看到了很多题后面都有你的身影我刚从MATLAB转来python

要是看不懂前面童鞋的代码，建议你学下requests和BeautifulSoup，很快能掌握。

yuanyuan4220 · 发表于 2019-8-22 11:46:43

空青发表于 2019-8-22 11:35
要是看不懂前面童鞋的代码，建议你学下requests和BeautifulSoup，很快能掌握。

request我知道，BeautifulSoup是在那一节？

jinlovelive · 发表于 2019-8-22 12:36:18

yuanyuan4220 发表于 2019-8-22 11:46
request我知道，BeautifulSoup是在那一节？

都是在爬虫那块啊，我记得是urllib后面讲的就是这个了吧，毕竟需要解析返回的页面。
bs4模块需要安装，直接pip好了

yuanyuan4220 · 发表于 2019-8-22 12:48:12

jinlovelive 发表于 2019-8-22 12:36
都是在爬虫那块啊，我记得是urllib后面讲的就是这个了吧，毕竟需要解析返回的页面。
bs4模块需要安装， ...

好嘞，谢谢，我先捣鼓捣鼓

账号		自动登录	找回密码
密码			立即注册

如何提取想要的数据并写入Excel

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块