鱼C论坛

 找回密码
 立即注册
查看: 2582|回复: 1

[作品展示] 重拾爬虫-基础爬虫

[复制链接]
发表于 2019-2-24 22:43:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import requests
  2. import re
  3. from bs4 import BeautifulSoup as soup
  4. import openpyxl
  5. def request_url(url,headers):

  6.     html = requests.get(url,headers=headers).text

  7.     html = soup(html,'html.parser')

  8.         return html
  9.    

  10. def get_data(html):
  11.     data_all = html.find_all('div',class_= 'listX')
  12.     list = []
  13.     for each in data_all:
  14.         list1 = []
  15.         for i in each.find_all('p'):
  16.             cop = i.text
  17.             for n in cop.split(sep = '·'):
  18.                 list1.append(n)
  19.         list.append(list1)
  20.         return list

  21. def save_as_excel(data, name):
  22.     wb = openpyxl.Workbook()
  23.     ws = wb.active

  24.     ws['A1'] = '户型'
  25.     ws['B1'] = '面积'
  26.     ws['C1'] = '朝向'
  27.     ws['D1'] = '楼层'
  28.     ws['E1'] = '装修'
  29.     ws['F1'] = '地址'
  30.     ws['G1'] = '关注人数'
  31.     ws['H1'] = '近期带看'
  32.     ws['I1'] = '发布时间'
  33.     ws['J1'] = '总价'
  34.     ws['K1'] = '单价'
  35.        
  36.     for each in data:
  37.         ws.append(each)
  38.     wb.save(name)

  39. def main():
  40.     headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
  41.     url_1 = input('输入你要搜索的杭州区的名字请输入拼音(例如 西湖区:xihuqu):')
  42.         url_2 = input('选择你喜欢的房价的范围(例如:100~200):')
  43.         url_3 = input('选择你喜欢的房子的面积大小m2(例如:100~200):')
  44.         url_4 = input('选择你的户型(例如 n居室:n,6居室及以上输入9):')
  45.     url = 'https://hz.5i5j.com/ershoufang/' +url_1+ '/'+'b'+url_3.split('~')[0]+'e'+url_3.split('~')[1]+'h'+url_3.split('~')[1]+'l'+url_3.split('~')[0]+'/'
  46.         html = request_url(url,headers)
  47.         data = get_data(html)
  48.         name = url_1 + url_2 +'平方'+url_3 + '万元' + url_4 + '居室'+'二手房信息.xlsx'
  49.         save_as_excel(data, name)
  50.         print('查询信息已保存!')
  51. if __name__ == '__main__':
  52.     main()
  53.        
  54.        
  55.        
复制代码

成果

成果
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-2-24 22:45:50 | 显示全部楼层
最后main()里面的代码缩进有点问题,复制过来就这样了,伸手党需要自己改改了哦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-16 17:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表