鱼C论坛

 找回密码
 立即注册
查看: 1296|回复: 3

爬取2017年房价

[复制链接]
发表于 2022-5-1 15:20:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Tihool 于 2022-5-1 15:29 编辑

import xlwt
import urllib.request
from bs4 import BeautifulSoup
def main():
    url ='https://news.house.qq.com/a/20170702/003985.htm'
    res = open_url(url)
    data = get_data(res)
    datas = save_file(data)



def open_url(url):
    head = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
    res = urllib.request.Request(url,headers=head)
    response = urllib.request.urlopen(res)
    print(response)
    return response
def get_data(url):
    data = []
    b = re.compile(r'\[(.+)\]')
    soup = BeautifulSoup(url,"html.parser")
    target = soup.find_all('p', style="TEXT-INDENT: 2em",class_="text")
    target = iter(target)
    for each in target:
        if each.get_text().isnumeric():
            data.append([
           re.findall(next(target).text,b),,#此处如何修改
            next(target).text,
            next(target).text,
            next(target).text])
    print(data)
    return data


def save_file(data):

    name = ['城市',"房价",'工资','工资比']
    workbook = xlwt.Workbook(encoding = 'utf-8')
    worksheet = workbook.add_sheet('sheet1')
    for i in range(4):
        worksheet.write(0,i,name[i])
    for i,_ in enumerate(data):
        Data = data[i]
        for j,v in enumerate(Data):
            worksheet.write(i+1,j,v)
    workbook.save('房价.xls')
if __name__ == "__main__":  
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-5-1 15:28:08 | 显示全部楼层

这种简单有规律的可以直接用列表切片 [1:-1] 不用正则

直接在 next(target).text[1:-1] 即可。正则可以这样写:"[(.+)]"
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-5-1 15:33:49 | 显示全部楼层
Twilight6 发表于 2022-5-1 15:28
这种简单有规律的可以直接用列表切片 [1:-1] 不用正则

直接在 next(target).text[1:-1] 即可。正则可 ...

这个正则我知道,但是用起来好像不太对
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-5-1 15:41:22 | 显示全部楼层
Tihool 发表于 2022-5-1 15:33
这个正则我知道,但是用起来好像不太对


是你参数填反了... 是 re.findall(b, next(target).text)

而且findall 获取的后返回的是列表,需要 [0] 取出第一个元素

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-18 12:38

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表