我有一个这样的数据框,其中的列是一些指标的得分:
A B C D
4 3 3 1
2 5 2 2
3 5 2 4
我想创建一个新列,以使用列名作为字符串来总结每行在设置的阈值内得分的指标。因此,如果阈值是A> 2,B> 3,C> 1,D> 3,我希望新列看起来像这样:
A B C D NewCol
4 3 3 1 AC
2 5 2 2 BC
3 5 2 4 ABCD
我尝试使用一系列的np.where:
df[NewCol] = np.where(df['A'] > 2, 'A', '')
df[NewCol] = np.where(df['B'] > 3, 'B', '')
等等
但意识到只要所有四个指标均不符合条件,结果就会被最后一个指标覆盖,例如:
A B C D NewCol
4 3 3 1 C
2 5 2 2 C
3 5 2 4 ABCD
我很确定有一种更简单正确的方法来执行此操作。
您可以这样做:
import pandas as pd
data = [[4, 3, 3, 1],
[2, 5, 2, 2],
[3, 5, 2, 4]]
df = pd.DataFrame(data=data, columns=['A', 'B', 'C', 'D'])
th = {'A': 2, 'B': 3, 'C': 1, 'D': 3}
df['result'] = [''.join(k for k in df.columns if record[k] > th[k]) for record in df.to_dict('records')]
print(df)
输出量
A B C D result
0 4 3 3 1 AC
1 2 5 2 2 BC
2 3 5 2 4 ABCD