nlp 从字典的字典创建矩阵以计算文档之间的相似度

amdex 2019-07-03 22:21

您可以直接使用pandas DataFrame类将词典列表转换为数据框。

import pandas as pd

a = [{"0": 0}, {"1": 1}]
df = pd.DataFrame(a)

要将其应用于您的问题，您要做的就是变成mydict词典列表而不是词典词典。

nipato 2019-07-03 22:30:06

是的，但是我需要将其转换为矩阵而不是数据框，因为我想计算文档之间的相似度，并且我相信您需要每个文档的tfidf权重矩阵

amdex 2019-07-03 22:32:38

您有多种选择：您可以先将其转换为数据框，然后调用df.as_matrix。另外，您可以使用DictVectorizerfrom sklearn，它也可以为您解决问题。

nipato 2019-07-03 22:44:16

是的，我听说过DictVectorizer，我会尝试的，谢谢！

the LLM vulnerability scanner

🚀 Efficient implementations of state-of-the-art linear attention models

📚 从零开始的大语言模型原理与实践教程

Generate code from the terminal!

🧩 Patches for ReVanced (翻译：🧩ReVanced 维护的官方补丁)

The Go language implementation of gRPC. HTTP/2 based RPC

the elegant TypeScript UI framework

nlp - 从字典的字典创建矩阵以计算文档之间的相似度