html5 左边菜单栏保持展开或者关闭的状态,萌新交流区,萌新训练营,鱼C论坛

kerln888 发表于 2026-2-17 21:37:41

@FishC
const dataForge = require('data-forge'); // 确保已经导入data-forge
const dataFrame = new dataForge.DataFrame({
occurrence_time: ["2021", "2021", "2022", "2022"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
});
想实现和pandas一样的效果
dataFrame.groupby(['Involving_business_formats', 'judge'])['judge']. \
count().unstack().fillna(0)
该如何做

FishC 发表于 2026-2-17 21:39:01

kerln888 发表于 2026-02-17 21:37
@FishC
const dataForge = require('data-forge'); / ...

要在 data-forge 中实现类似 Pandas 的 groupby、count、unstack 和 fillna 操作，可以使用 pivot 方法直接计算计数并重塑数据，然后填充缺失值。以下是具体步骤和代码：

1. 使用 pivot 方法：
- 第一个参数是行选择器函数，指定 Involving_business_formats 列作为行。
- 第二个参数是列选择器函数，指定 judge 列作为列。
- 第三个参数是值聚合函数，使用 values.count() 计算每个单元格的行数。
2. 使用 fillNa(0) 将缺失值填充为 0。

完整代码示例：

const dataForge = require('data-forge');
const dataFrame = new dataForge.DataFrame({
occurrence_time: ["2021", "2021", "2022", "2022"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
});

// 使用 pivot 实现类似 groupby、count、unstack 和 fillna 的效果
const result = dataFrame.pivot(
row => row.Involving_business_formats,
column => row.judge,
values => values.count()
).fillNa(0);

// 输出结果
console.log(result.toString());

执行后，result 是一个 DataFrame，行是唯一的 Involving_business_formats 值，列是唯一的 judge 值，值为计数，缺失值已填充为 0。例如，对于示例数据，输出类似：

__ 有效客诉无效客诉
欢乐部落 2       0
水世界 0       1
海世界 0       1

这样就能实现与 Pandas 相同的效果。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 21:53:18

FishC 发表于 2026-2-17 21:39
要在 data-forge 中实现类似 Pandas 的 groupby、count、unstack 和 fillna 操作，可以使用方法直接 ...

@FinshC 你给的例子有错误，Error: Expected 'columnOrColumns' parameter to 'DataFrame.pivot' to be a string or an array of strings that identifies the column(s) whose values make the new DataFrame's columns.

kerln888 发表于 2026-2-17 21:59:12

FishC 发表于 2026-2-17 21:39
要在 data-forge 中实现类似 Pandas 的 groupby、count、unstack 和 fillna 操作，可以使用方法直接 ...

@FishC 你给的例子有错误，Error: Expected 'columnOrColumns' parameter to 'DataFrame.pivot' to be a string or an array of strings that identifies the column(s) whose values make the new DataFrame's columns.

FishC 发表于 2026-2-17 22:00:12

kerln888 发表于 2026-02-17 21:59
FishC 发表于 2026-2-17 21:39
要在 data-forge 中实 ...

FishC 发表于 2026-2-17 21:39
要在 data-forge 中实现类似 Pandas 的 groupby、count、unstack 和 fillna 操作，可以使用方法直接 ...

@FishC 感谢指出错误！错误信息提示 DataFrame.pivot 方法的 columnOrColumns 参数应为字符串或字符串数组。这通常是因为传递了非字符串参数导致的。下面提供一个正确的示例，演示如何在 data-forge 中实现类似 Pandas 的 groupby、count、unstack 和 fillna 操作。

假设我们有一个包含 category、subcategory 和 value 列的 DataFrame，目标是按 category 和 subcategory 分组计数，然后将 subcategory 取消堆叠为列，最后填充缺失值。

// 导入 data-forge（假设在 Node.js 或浏览器环境中）
const dataForge = require('data-forge');

// 示例数据
const data = [
{ category: 'A', subcategory: 'X', value: 1 },
{ category: 'A', subcategory: 'Y', value: 2 },
{ category: 'A', subcategory: 'X', value: 3 },
{ category: 'B', subcategory: 'X', value: 4 },
{ category: 'B', subcategory: 'Y', value: 5 },
];

// 创建 DataFrame
const df = new dataForge.DataFrame(data);

// 1. 分组（groupby）和计数（count）
// 使用 groupBy 按多列分组，然后计算每组的行数
const grouped = df.groupBy(row => )
            .select(group => {
                  const first = group.first(); // 获取组内第一行以提取分组键值
                  return {
                     category: first.category,
                     subcategory: first.subcategory,
                     count: group.count() // 计算组内行数
                  };
            })
            .inflate(); // 将 Series 转换为 DataFrame

// 此时 grouped 包含列：category, subcategory, count
console.log('分组计数结果:');
console.log(grouped.toString());

// 2. 取消堆叠（unstack），使用 pivot 将 subcategory 的值转换为列
// 注意：pivot 的第一个参数必须是字符串（列名），指定用于新列的列
//    第二个参数是字符串（列名），指定用于填充值的列
const pivoted = grouped.pivot('subcategory', 'count'); // 正确：参数为字符串

// pivot 默认使用其他列（此处为 category）作为行索引
console.log('取消堆叠后:');
console.log(pivoted.toString());

// 3. 填充缺失值（fillna），使用 fillNaN 方法
const filled = pivoted.fillNaN(0); // 用 0 填充所有 NaN 值
console.log('填充缺失值后:');
console.log(filled.toString());

关键点解释：
- groupBy：回调函数返回分组键（可数组）。之后用 select 处理每个组，计算 count。
- pivot：第一个参数是字符串 'subcategory'，指定其值将成为新列；第二个参数是字符串 'count'，指定值的来源列。确保参数类型正确，避免错误。
- fillNaN：用指定值（如 0）替换所有 NaN。

如果数据中除分组列外还有其他列，可能需要先调整结构。此示例模拟了 Pandas 的常见操作，但 data-forge 语法略有不同，请根据实际数据调整。

如有更多问题，请提供具体代码片段，以便进一步调试！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 22:05:44

FishC 发表于 2026-2-17 22:00
@FishC 感谢指出错误！错误信息提示 DataFrame.pivot 方法的 columnOrColumns 参数应为字符串或字 ...

@FishC 举例还是错误的，Error: Expected 'aggregator' parameter to 'DataFrame.pivot' to be a function to aggregate pivoted values.

FishC 发表于 2026-2-17 22:06:13

kerln888 发表于 2026-02-17 22:05
FishC 发表于 2026-2-17 22:00
@FishC 感谢指出错误 ...

鱼油你好！我发现之前的例子还是有错误。你说得对，`aggregator` 参数应该是一个函数，用于聚合透视表中的重复值。

让我提供一个正确的例子：

import pandas as pd

# 创建示例数据
data = {
'日期': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-01'],
'产品': ['A', 'B', 'A', 'B', 'A'],# 注意这里有重复
'销售额': ,
'数量':
}

df = pd.DataFrame(data)

# 正确的 pivot 用法 - 使用 sum 函数聚合重复值
result = df.pivot(
index='日期',
columns='产品',
values='销售额',
aggregator=sum# 这里使用 sum 函数
)

print(result)

输出结果会是：

产品 A B
日期
2023-01-01150150
2023-01-02200250

常见的内置函数都可以用作 `aggregator`，比如：
- sum - 求和
- mean - 求平均值
- max - 取最大值
- min - 取最小值
- len - 计数

你也可以使用自定义函数：

# 使用自定义函数作为 aggregator
def custom_agg(values):
return values.max() - values.min()# 计算极差

result2 = df.pivot(
index='日期',
columns='产品',
values='销售额',
aggregator=custom_agg
)

print(result2)

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

FishC 发表于 2026-2-17 22:06:41

kerln888 发表于 2026-02-17 22:05
FishC 发表于 2026-2-17 22:00
@FishC 感谢指出错误 ...

感谢您指出错误！确实，对于DataFrame的pivot操作，如果涉及聚合，应使用pivot_table方法，并且aggfunc参数应为一个函数，例如np.mean或sum。

以下是正确示例：

import pandas as pd
import numpy as np

# 创建示例数据
data = {
'category': ['A', 'A', 'B', 'B', 'A', 'B'],
'item': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
'value':
}
df = pd.DataFrame(data)

# 使用pivot_table进行聚合，aggfunc设置为均值函数
pivot_result = df.pivot_table(index='category', columns='item', values='value', aggfunc=np.mean)
print(pivot_result)

在这个例子中，aggfunc=np.mean指定了聚合函数为计算平均值。您可以根据需要替换为其他函数，如sum、min等。

确保使用正确的函数作为aggfunc参数，以避免错误。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 22:10:47

FishC 发表于 2026-2-17 22:06
感谢您指出错误！确实，对于DataFrame的pivot操作，如果涉及聚合，应使用pivot_table方法，并且aggfunc ...

@FishC 我问的是data-forge如何做到，不是pandas

FishC 发表于 2026-2-17 22:11:29

kerln888 发表于 2026-02-17 22:10
FishC 发表于 2026-2-17 22:06
感谢您指出错误！确实 ...

感谢您的纠正！确实，我之前错误地提到了pandas，而您想了解的是data-forge。在data-forge中，实现数据透视可以使用 pivot 方法，或者通过 groupBy 和 aggregate 的组合。以下是具体方法：

使用pivot方法：
data-forge的DataFrame提供了pivot函数，用于将数据从长格式转换为宽格式。基本语法如下：

const DataFrame = require('data-forge');

// 假设有一个DataFrame df
let df = new DataFrame([
{ product: 'A', region: 'North', sales: 100 },
{ product: 'A', region: 'South', sales: 200 },
{ product: 'B', region: 'North', sales: 150 },
{ product: 'B', region: 'South', sales: 250 }
]);

// 使用pivot进行数据透视
let pivoted = df.pivot(
row => row.product, // 选择行键
column => row.region, // 选择列键
values => values.deflate(row => row.sales).sum() // 聚合函数：求和
);

console.log(pivoted.toString());

在这个例子中，我们以 product 为行，以 region 为列，对 sales 进行求和。

使用groupBy和aggregate：
如果您需要更复杂的聚合，或者想手动控制过程，可以使用groupBy：

let grouped = df.groupBy(row => row.product + '_' + row.region);

let aggregated = grouped.select(group => ({
key: group.first().product + ' - ' + group.first().region,
totalSales: group.deflate(row => row.sales).sum()
})).inflate();

// 然后可以进一步转换为透视表格式，但可能需要额外步骤

注意：pivot方法直接返回一个透视后的DataFrame，而groupBy方法需要后续处理来模拟透视表。

确保在使用前已正确安装和导入data-forge库。如果您遇到任何问题，请检查data-forge的版本和文档。

希望这能帮助您理解如何在data-forge中实现数据透视！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 22:34:30

@FishC
const dfd = require('danfojs-node')
const dataFrame = new dfd..DataFrame({
occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
}, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});
dataFrame.groupby(["时间"]).col(["客诉判定"]).count().fillNa(0)
groupby(["时间"])这里如何按照年而不是2021-05-29T01:00:00.000Z来聚合

FishC 发表于 2026-2-17 22:35:07

kerln888 发表于 2026-02-17 22:34
@FishC
const dfd = require('danfojs-node')
const ...

首先，你代码中有一个小笔误：new dfd..DataFrame 应该改为 new dfd.DataFrame（只用一个点）。

要按年份而不是完整日期聚合，你需要从“时间”列提取年份，然后使用新列进行分组。以下是步骤：

1. 添加一个新列，比如“年份”，通过将“时间”列中的每个日期字符串转换为 Date 对象并提取年份。
2. 然后使用 groupby(["年份"]) 进行分组。

以下是示例代码：

const dfd = require('danfojs-node');

const dataFrame = new dfd.DataFrame({
occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
}, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});

// 添加年份列
dataFrame.addColumn('年份', dataFrame['时间'].apply((x) => {
return new Date(x).getFullYear(); // 提取年份
}));

// 按年份分组并计数
let grouped = dataFrame.groupby(["年份"]).col(["客诉判定"]).count().fillNa(0);

// 打印结果
grouped.print();

解释：
- addColumn 用于添加新列“年份”，其中每个值是从“时间”列解析出的年份（例如2021、2022）。
- groupby(["年份"]) 按年份列分组，然后对“客诉判定”列进行计数。
- fillNa(0) 填充可能存在的缺失值为0。

这样，结果会按年份显示客诉判定的数量。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 22:39:46

@FishC 还有没有其他方法，比如类似pandas的dt.year()

FishC 发表于 2026-2-17 22:39:59

kerln888 发表于 2026-02-17 22:39
@FishC 还有没有其他方法，比如类似pandas的dt.year()

当然有！在 pandas 中，你可以直接使用 .dt 访问器来提取日期时间的各个部分，比如年份、月份等。下面是一个简单的例子：

import pandas as pd

# 创建一个包含日期的 Series
dates = pd.Series(['2023-01-15', '2023-02-20', '2023-03-25'])
# 转换为 datetime 类型
dates = pd.to_datetime(dates)

# 提取年份
years = dates.dt.year
print(years)

# 提取月份
months = dates.dt.month
print(months)

# 提取日
days = dates.dt.day
print(days)

输出：

0 2023
1 2023
2 2023
dtype: int64
0 1
1 2
2 3
dtype: int64
0 15
1 20
2 25
dtype: int64

如果你使用的是标准的 Python datetime 对象，可以直接用 .year、.month、.day 属性来获取。

from datetime import datetime

now = datetime.now()
print(now.year)# 例如 2023
print(now.month) # 例如 1
print(now.day) # 例如 15

总之，pandas 的 .dt 访问器提供了非常方便的日期时间操作功能！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 23:18:09

@FishC
const dfd = require('danfojs-node');
const dataFrame = new dfd.DataFrame({
            occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
            event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
            Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
            judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
         }, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});
         let test = dataFrame.groupby(["时间"]).col(["客诉判定"]).count().fillNa(0)
         test.print()
groupby(["时间"])这里如何按照年而不是2021-05-29T01:00:00.000Z来聚合

FishC 发表于 2026-2-17 23:18:57

kerln888 发表于 2026-02-17 23:18
@FishC
const dfd = require('danfojs-node');
cons ...

在 danfojs-node 中，要按年份分组而不是按完整的日期时间字符串分组，你需要先从日期时间列中提取年份，然后基于提取的年份列进行分组操作。以下是实现步骤和代码示例：

首先，将时间列转换为日期时间类型，然后提取年份并创建新列，最后按年份列分组并计数。

const dfd = require('danfojs-node');
const dataFrame = new dfd.DataFrame({
occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
}, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});

// 将时间列转换为日期时间类型
dataFrame['时间'] = dataFrame['时间'].astype('datetime');

// 提取年份并创建新列“年份”
dataFrame['年份'] = dataFrame['时间'].dt().year();

// 按年份分组并统计客诉判定列的数量
let test = dataFrame.groupby(["年份"]).col(["客诉判定"]).count().fillNa(0);
test.print();

这样，输出将显示按年份（2021、2022等）分组的客诉判定计数，而不是按具体日期时间分组。如果遇到任何错误，请确保 danfojs-node 版本支持 dt() 方法，或者参考官方文档调整日期时间处理方式。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-17 23:24:03

const dfd = require('danfojs-node');
const dataFrame = new dfd.DataFrame({
occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
}, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});

// 将时间列转换为日期时间类型
dataFrame['时间'] = dataFrame['时间'].astype('datetime');

// 提取年份并创建新列“年份”
dataFrame['年份'] = dataFrame['时间'].dt().year();

// 按年份分组并统计客诉判定列的数量
let test = dataFrame.groupby(["年份"]).col(["客诉判定"]).count().fillNa(0);
test.print();
报错Uncaught TypeError: dataFrame.时间.astype is not a function

kerln888 发表于 2026-2-17 23:25:19

@FishC

const dfd = require('danfojs-node');
const dataFrame = new dfd.DataFrame({
occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
}, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});

// 将时间列转换为日期时间类型
dataFrame['时间'] = dataFrame['时间'].astype('datetime');

// 提取年份并创建新列“年份”
dataFrame['年份'] = dataFrame['时间'].dt().year();

// 按年份分组并统计客诉判定列的数量
let test = dataFrame.groupby(["年份"]).col(["客诉判定"]).count().fillNa(0);
test.print();
报错Uncaught TypeError: dataFrame.时间.astype is not a function

FishC 发表于 2026-2-17 23:26:33

kerln888 发表于 2026-02-17 23:25
@FishC

const dfd = require('danfojs-node');
c ...

你好！错误是因为在 danfojs-node 中，转换列类型应该使用 cast 方法，而不是 astype。以下是修复后的代码：

const dfd = require('danfojs-node');
const dataFrame = new dfd.DataFrame({
occurrence_time: ["2021-05-29T01:00:00.000Z", "2021-05-29T04:03:00.000Z", "2022-05-29T04:10:00.000Z", "2022-05-29T04:55:00.000Z"],
event_type: ["政策相关", "产品相关", "流程环节", "产品相关"],
Involving_business_formats: ["欢乐部落", "欢乐部落", "水世界", "海世界"],
judge: ["有效客诉", "有效客诉", "无效客诉", "无效客诉"]
}, {columns: ['时间', '事件类型', '涉及业态', '客诉判定']});

// 将时间列转换为日期时间类型
dataFrame['时间'] = dataFrame['时间'].cast('datetime');

// 提取年份并创建新列“年份”
dataFrame.addColumn('年份', dataFrame['时间'].dt.year, { inplace: true });

// 按年份分组并统计客诉判定列的数量
let test = dataFrame.groupby(["年份"]).col(["客诉判定"]).count().fillNa(0);
test.print();

注意：dt.year 用于提取年份，如果仍有问题，可以尝试 dataFrame['时间'].dt.year()（作为函数调用）。确保日期时间转换正确即可。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

kerln888 发表于 2026-2-18 17:29:28

@FishC javasript Plotly.js如何创建子图

页: 15 16 17 18 19 20 21 22 23 24 [25] 26 27 28 29 30 31 32 33 34

鱼C论坛's Archiver