python pandas 列转换以获得累积美元金额

jezrael 2020-01-31 17:49

sum每两列的第一个汇总：

print (df.dtypes)
district       object
item           object
salesAmount     int64
dtype: object

df1 = df.groupby(['district', 'item'], as_index=False)['salesAmount'].sum()

要么：

df1 = df.groupby(['district', 'item'], as_index=False).agg({'salesAmount': 'sum'})
print (df1)
  district    item  salesAmount
0     Arba    coil          300
1     Arba  laptop        10000
2     Arba     pen           30
3     Arba  pencil           30
4     Cebu   fruit          800
5     Cebu  laptop        40000
6     Cebu     oil          300
7     Cebu     pen          120

然后排序与两列DataFrame.sort_values，使用GroupBy.cumsum和最后GroupBy.transform有sum：

df1 = df1.sort_values(['district','salesAmount'], ascending=[True, False])
df1['cumsalesAmount'] = df1.groupby('district')['salesAmount'].cumsum()
df1['totaldistrictAmount'] = df1.groupby('district')['salesAmount'].transform('sum')
 #alternative
 #df1['totaldistrictAmount'] = df1.groupby('district')['cumsalesAmount'].transform('last')
print (df1)
  district    item  salesAmount  cumsalesAmount  totaldistrictAmount
1     Arba  laptop        10000           10000                10360
0     Arba    coil          300           10300                10360
2     Arba     pen           30           10330                10360
3     Arba  pencil           30           10360                10360
5     Cebu  laptop        40000           40000                41220
4     Cebu   fruit          800           40800                41220
6     Cebu     oil          300           41100                41220
7     Cebu     pen          120           41220                41220

Lilly 2020-01-31 16:28:19

谢谢。您的第一行代码给我以下错误： TypeError: groupby() got an unexpected keyword argument 'level'

jezrael 2020-01-31 16:30:44

@Lilly- print (df.info())我的解决方案之前是什么？

Lilly 2020-01-31 16:32:05

district 19551 non-null object item 19551 non-null object salesAmount 19551 non-null object

jezrael 2020-01-31 16:34:11

@Lilly-我认为df1 = df.groupby(['district', 'item']).agg({'salesAmount': 'sum'})有必要更改为df1 = df.groupby(['district', 'item'], as_index=False).agg({'salesAmount': 'sum'})

Lilly 2020-01-31 18:02:35

射击...实际上是我的错误..我正在研究pysaprk df，并使用Kolas将pyspark df转换为kolas_df，并尝试使用熊猫函数。Kolas的问题是transform功能不可用。因此，我将pyspark df转换为pandas，现在您的代码可以正常工作了。使用考拉时应小心。感谢您的所有投入，并非常感谢您的宝贵时间。

python - pandas 列转换以获得累积美元金额

相关问题

热门github