温馨提示:本文翻译自stackoverflow.com,查看原文请点击:json - Tokenising words in a dictionary Python

json - 在字典Python中标记单词

发布于 2020-03-27 11:32:38

所以我有json文件,我将数据导入python。

我在JSON中有一个agentId字段和一个agentText字段

样本json:

{
"messages": 
[
    {"agentId": "1", "agentText": "I Love Python"},
    {"agentId": "2", "agentText": "but cant seem to get my head around it"},
    {"agentId": "3", "agentText": "what are the alternatives?"}
]
}

我正在尝试通过执行以下操作来创建带有agentIds和AgentText字段的字典/密钥对值:

当我这样做时,键值对可以正常工作:

import json

with open('20190626-101200-text-messages2.json', 'r') as f:
    data = json.load(f)

for message in data['messages']:
        agentIdandText = {message['agentId']: [message['agentText']]}
        print(agentIdandText)

和输出我得到这个:

{'1': ['I love python']}
{'2': ["but cant seem to get my head around it"]}
{'3': ['what are the alternatives?']}

但是当我尝试对单词进行标记(如下)时,我开始遇到错误

from nltk.tokenize import TweetTokenizer
varToken = TweetTokenizer()

import json

with open('20190626-101200-text-messages2.json', 'r') as f:
    data = json.load(f)

for message in data['messages']:
        agentIdandText = {message['agentId']: varToken.tokenize([message['agentText']])}
        print(agentIdandText)

部分错误消息(通过评论编辑):

return ENT_RE.sub(_convert_entity, _str_to_unicode(text, encoding)) 
TypeError: expected string or bytes-like object

所以我期望的是:

{
'1': ['I', 'love', 'python'],
'2': ['but', 'cant', 'seem', 'to', 'get', 'my', 'head', 'around', 'it'],
'3': ['what', 'are', 'the', 'alternatives?']
}

我该如何实现?

查看更多

查看更多

提问者
dragonfury2
被浏览
63
Kenstars 2019-07-04 18:21

此更改是否解决了您的问题,我认为您将必须将字符串传递给tokenize函数。

from nltk.tokenize import TweetTokenizer
varToken = TweetTokenizer()
import json
with open('20190626-101200-text-messages2.json', 'r') as f:
    data = json.load(f)
output_data = {}
for message in data['messages']:
    agentIdandText = {message['agentId']: varToken.tokenize(message['agentText'])}
    #print(agentIdandText)
    output_data.update(agentIdandText)
print (output_data)

编辑:添加了output_data变量以在一个字典中展示所有键。

发布
问题

分享
好友

手机
浏览

扫码手机浏览