每日一爬（不定期更新，嘿嘿嘿~）练手系列

snail:) · 发表于 2018-3-2 15:25:17

您需要登录才可以下载或查看，没有账号？立即注册

x

爬取2017年房价排行榜数据：

import requests
import bs4
import re
import openpyxl
def open_url(url):
headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
html = requests.get(url,headers = headers)
#print(html.encoding)
encoding = html.encoding
return html
def get_data(html):
soup = bs4.BeautifulSoup(html.text,'html.parser')
#print(soup.find_all('li',class_=re.compile('^clearfix.+')))
mylist = []
for each in soup.find_all('li',class_=re.compile('^clearfix.+')):
mylist.append(each.text.strip().split('\n'))
new_mylist = []
for each_list in mylist:
each_list[0] = re.search(r'2017年(.+)房价',each_list[0]).group(1)
new_mylist.append(each_list)
return new_mylist
def save_as_excel(mylist):
wb = openpyxl.Workbook()
ws = wb.active
ws['A1'] = '地区'
ws['B1'] = '房价'
ws['C1'] = '同比'
for each in mylist:
ws.append(each)
wb.save('2017全国房价排行.xlsx')
def main():
url = 'https://www.anjuke.com/fangjia/quanguo2017/'
html = open_url(url)
mylist = get_data(html)
save_as_excel(mylist)
if __name__ == '__main__':
main()

复制代码

小甲鱼 · 发表于 2018-3-2 16:20:56

可以可以~~

qiuyouzhi · 发表于 2018-3-2 20:13:37

可不可以不用bs4？

snail:) · 发表于 2018-3-2 22:58:43

本帖最后由 snail:) 于 2018-3-2 23:14 编辑

小甲鱼发表于 2018-3-2 16:20
可以可以~~

谢谢坛主，继续努力

snail:) · 发表于 2018-3-2 23:01:00

qiuyouzhi 发表于 2018-3-2 20:13
可不可以不用bs4？

可以的，你直接用正则也行，bs4就是重新把网络的框架梳理出来，便于分析

账号		自动登录	找回密码
密码			立即注册

[学习笔记] 每日一爬（不定期更新，嘿嘿嘿~）练手系列