爬取2017年房价

Tihool · 发表于 2022-5-1 15:20:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Tihool 于 2022-5-1 15:29 编辑

import xlwt
import urllib.request
from bs4 import BeautifulSoup
def main():
url ='https://news.house.qq.com/a/20170702/003985.htm'
res = open_url(url)
data = get_data(res)
datas = save_file(data)

def open_url(url):
head = {
      "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
res = urllib.request.Request(url,headers=head)
response = urllib.request.urlopen(res)
print(response)
return response
def get_data(url):
data = []
b = re.compile(r'\[(.+)\]')
soup = BeautifulSoup(url,"html.parser")
target = soup.find_all('p', style="TEXT-INDENT: 2em",class_="text")
target = iter(target)
for each in target:
      if each.get_text().isnumeric():
         data.append([
         re.findall(next(target).text,b),,#此处如何修改
         next(target).text,
         next(target).text,
         next(target).text])
print(data)
return data

def save_file(data):

name = ['城市',"房价",'工资','工资比']
workbook = xlwt.Workbook(encoding = 'utf-8')
worksheet = workbook.add_sheet('sheet1')
for i in range(4):
      worksheet.write(0,i,name[i])
for i,_ in enumerate(data):
      Data = data[i]
      for j,v in enumerate(Data):
         worksheet.write(i+1,j,v)
workbook.save('房价.xls')
if __name__ == "__main__":
main()

Twilight6 · 发表于 2022-5-1 15:28:08

这种简单有规律的可以直接用列表切片 [1:-1] 不用正则

直接在 next(target).text[1:-1] 即可。正则可以这样写："[(.+)]"

Tihool · 发表于 2022-5-1 15:33:49

Twilight6 发表于 2022-5-1 15:28
这种简单有规律的可以直接用列表切片 [1:-1] 不用正则

直接在 next(target).text[1:-1] 即可。正则可 ...

这个正则我知道，但是用起来好像不太对

Twilight6 · 发表于 2022-5-1 15:41:22

Tihool 发表于 2022-5-1 15:33
这个正则我知道，但是用起来好像不太对

是你参数填反了... 是 re.findall(b, next(target).text)

而且findall 获取的后返回的是列表，需要 [0] 取出第一个元素

账号		自动登录	找回密码
密码			立即注册