鱼C论坛

 找回密码
 立即注册
查看: 2027|回复: 15

[已解决]爬虫存储数据

[复制链接]
发表于 2023-5-13 11:04:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请问这个代码保存成csv文件,想要第一行显示年龄,身高,学历,住址该怎么修改
import requests
import pandas as pd
import re
from lxml import html
etree = html.etree
#主页
url = 'https://search.baihe.com/search/noLogin?&jsonCallBack=jQuery183026832692080622156_1683878942706'
info_url = 'https://profile1.baihe.com/?oppID='
header = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
}
params = {
   "jsonCallBack": "jQuery183026832692080622156_1683878942706"
}
age_list = []
height_list = []
degree_list = []
city_list = []

response = requests.post(url=url,headers=header,params=params).text
ex = '"userID":(\d+)'
matches = re.findall(ex,response,re.S)
for i in matches:
   ifo_url = info_url + i
   print(ifo_url)
   page = requests.get(url = ifo_url,headers=header).text
   tree = etree.HTML(page)
   # age = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[1]')[1]
   # height = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[2]')[1]
   # degree = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[3]')[1]
   # city = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[4]')[0]
   #print(age,height,degree,city)
   age_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[1]')[1])
   height_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[2]')[1])
   degree_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[3]')[1])
   city_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[4]')[0])
print('爬取成功')

df = pd.DataFrame()
df['年龄'] = age_list
df['身高'] = height_list
df['学历'] = degree_list
df['城市'] = city_list
df.to_csv('baihe.csv',mode='a+',header=None,index=None,encoding='gbk')
就是这个图片里面的内容变成下一个图片的内容
最佳答案
2023-5-13 11:05:39
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:
df.to_csv('baihe.csv', mode='a+', header=['年龄', '身高', '学历', '城市'], index=None, encoding='gbk')
这样就会把年龄、身高、学历、城市作为第一行写入到csv文件中了。
屏幕截图(46).png
屏幕截图(47).png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-13 11:04:53 | 显示全部楼层
可以将最后一段代码修改为以下内容:

df = pd.DataFrame({'年龄': age_list, '身高': height_list, '学历': degree_list, '住址': city_list})
df.to_csv('baihe.csv', index=None, encoding='gbk')

这样就可以将列名修改为年龄、身高、学历、住址并保存为csv文件了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 11:05:39 | 显示全部楼层    本楼为最佳答案   
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:
df.to_csv('baihe.csv', mode='a+', header=['年龄', '身高', '学历', '城市'], index=None, encoding='gbk')
这样就会把年龄、身高、学历、城市作为第一行写入到csv文件中了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:06:58 | 显示全部楼层
isdkz 发表于 2023-5-13 11:04
可以将最后一段代码修改为以下内容:

df = pd.DataFrame({'年龄': age_list, '身高': height_list, '学 ...

感谢感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:07:25 | 显示全部楼层
陶远航 发表于 2023-5-13 11:05
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:

这样就会把年龄、身高、学历、城市作为第 ...

感谢感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:08:03 | 显示全部楼层
陶远航 发表于 2023-5-13 11:05
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:

这样就会把年龄、身高、学历、城市作为第 ...

请问index那个参数是干什么的呢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 11:10:43 | 显示全部楼层
哈岁NB 发表于 2023-5-13 11:08
请问index那个参数是干什么的呢

index参数用于确定写入CSV文件时是否将DataFrame对象的行索引写入到文件中。如果index参数的值为True,则将行索引写入文件中,如果值为False,则不会将行索引写入文件中。另外,如果在调用to_csv()方法时指定了一个字符串作为index_label参数值,则该字符串将被用作行索引列的名称。例如:
# 将行索引写入到CSV文件中,并设置行索引列名称为'Row_Index'
df.to_csv('filename.csv', index=True, index_label='Row_Index')

# 不将行索引写入到CSV文件中
df.to_csv('filename.csv', index=False)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:13:26 | 显示全部楼层
陶远航 发表于 2023-5-13 11:10
index参数用于确定写入CSV文件时是否将DataFrame对象的行索引写入到文件中。如果index参数的值为True,则 ...

好的,感谢感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 11:26:56 | 显示全部楼层
每天打卡学习中
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 13:59:45 | 显示全部楼层
陶远航 发表于 2023-5-13 11:05
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:

这样就会把年龄、身高、学历、城市作为第 ...

卧槽,你差2个就追上我了,日排行超过了isdkz,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:00:21 | 显示全部楼层
sfqxx 发表于 2023-5-13 13:59
卧槽,你差2个就追上我了,日排行超过了isdkz,

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:00:35 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:00:54 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:01:34 | 显示全部楼层

我没有爬虫,因为不会VP[b][b][b][/b][/b][/b]N
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:02:12 | 显示全部楼层

我不敢用爬虫,因为不会用翻
或者VPN
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:03:17 | 显示全部楼层
sfqxx 发表于 2023-5-13 14:02
我不敢用爬虫,因为不会用翻墙
或者VPN

不用翻[code][/code]
  
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-16 22:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表