鱼C论坛

 找回密码
 立即注册
查看: 2599|回复: 15

[已解决]爬虫存储数据

[复制链接]
发表于 2023-5-13 11:04:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请问这个代码保存成csv文件,想要第一行显示年龄,身高,学历,住址该怎么修改
  1. import requests
  2. import pandas as pd
  3. import re
  4. from lxml import html
  5. etree = html.etree
  6. #主页
  7. url = 'https://search.baihe.com/search/noLogin?&jsonCallBack=jQuery183026832692080622156_1683878942706'
  8. info_url = 'https://profile1.baihe.com/?oppID='
  9. header = {
  10.    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
  11. }
  12. params = {
  13.    "jsonCallBack": "jQuery183026832692080622156_1683878942706"
  14. }
  15. age_list = []
  16. height_list = []
  17. degree_list = []
  18. city_list = []

  19. response = requests.post(url=url,headers=header,params=params).text
  20. ex = '"userID":(\d+)'
  21. matches = re.findall(ex,response,re.S)
  22. for i in matches:
  23.    ifo_url = info_url + i
  24.    print(ifo_url)
  25.    page = requests.get(url = ifo_url,headers=header).text
  26.    tree = etree.HTML(page)
  27.    # age = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[1]')[1]
  28.    # height = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[2]')[1]
  29.    # degree = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[3]')[1]
  30.    # city = tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[4]')[0]
  31.    #print(age,height,degree,city)
  32.    age_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[1]')[1])
  33.    height_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[2]')[1])
  34.    degree_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[3]')[1])
  35.    city_list.append(tree.xpath('//*[@id="BAIHE"]/div[1]/div//p/text()[4]')[0])
  36. print('爬取成功')

  37. df = pd.DataFrame()
  38. df['年龄'] = age_list
  39. df['身高'] = height_list
  40. df['学历'] = degree_list
  41. df['城市'] = city_list
  42. df.to_csv('baihe.csv',mode='a+',header=None,index=None,encoding='gbk')
复制代码

就是这个图片里面的内容变成下一个图片的内容
最佳答案
2023-5-13 11:05:39
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:
  1. df.to_csv('baihe.csv', mode='a+', header=['年龄', '身高', '学历', '城市'], index=None, encoding='gbk')
复制代码

这样就会把年龄、身高、学历、城市作为第一行写入到csv文件中了。
屏幕截图(46).png
屏幕截图(47).png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2023-5-13 11:04:53 | 显示全部楼层
可以将最后一段代码修改为以下内容:

df = pd.DataFrame({'年龄': age_list, '身高': height_list, '学历': degree_list, '住址': city_list})
df.to_csv('baihe.csv', index=None, encoding='gbk')

这样就可以将列名修改为年龄、身高、学历、住址并保存为csv文件了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 11:05:39 | 显示全部楼层    本楼为最佳答案   
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:
  1. df.to_csv('baihe.csv', mode='a+', header=['年龄', '身高', '学历', '城市'], index=None, encoding='gbk')
复制代码

这样就会把年龄、身高、学历、城市作为第一行写入到csv文件中了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:06:58 | 显示全部楼层
isdkz 发表于 2023-5-13 11:04
可以将最后一段代码修改为以下内容:

df = pd.DataFrame({'年龄': age_list, '身高': height_list, '学 ...

感谢感谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:07:25 | 显示全部楼层
陶远航 发表于 2023-5-13 11:05
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:

这样就会把年龄、身高、学历、城市作为第 ...

感谢感谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:08:03 | 显示全部楼层
陶远航 发表于 2023-5-13 11:05
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:

这样就会把年龄、身高、学历、城市作为第 ...

请问index那个参数是干什么的呢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 11:10:43 | 显示全部楼层
哈岁NB 发表于 2023-5-13 11:08
请问index那个参数是干什么的呢

index参数用于确定写入CSV文件时是否将DataFrame对象的行索引写入到文件中。如果index参数的值为True,则将行索引写入文件中,如果值为False,则不会将行索引写入文件中。另外,如果在调用to_csv()方法时指定了一个字符串作为index_label参数值,则该字符串将被用作行索引列的名称。例如:
  1. # 将行索引写入到CSV文件中,并设置行索引列名称为'Row_Index'
  2. df.to_csv('filename.csv', index=True, index_label='Row_Index')

  3. # 不将行索引写入到CSV文件中
  4. df.to_csv('filename.csv', index=False)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-13 11:13:26 | 显示全部楼层
陶远航 发表于 2023-5-13 11:10
index参数用于确定写入CSV文件时是否将DataFrame对象的行索引写入到文件中。如果index参数的值为True,则 ...

好的,感谢感谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 11:26:56 | 显示全部楼层
每天打卡学习中
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 13:59:45 | 显示全部楼层
陶远航 发表于 2023-5-13 11:05
将df.to_csv(..)中的header参数设置为想要的列名即可,例如:

这样就会把年龄、身高、学历、城市作为第 ...

卧槽,你差2个就追上我了,日排行超过了isdkz,
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:00:21 | 显示全部楼层
sfqxx 发表于 2023-5-13 13:59
卧槽,你差2个就追上我了,日排行超过了isdkz,

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:00:35 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:00:54 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:01:34 | 显示全部楼层

我没有爬虫,因为不会VP[b][b][b][/b][/b][/b]N
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:02:12 | 显示全部楼层

我不敢用爬虫,因为不会用翻
或者VPN
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 14:03:17 | 显示全部楼层
sfqxx 发表于 2023-5-13 14:02
我不敢用爬虫,因为不会用翻墙
或者VPN

不用翻[code][/code]
  
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-24 01:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表