json - 在字典Python中标记单词

发布于 2020-03-27 11:32:38

所以我有json文件，我将数据导入python。

我在JSON中有一个agentId字段和一个agentText字段

样本json：

{
"messages": 
[
    {"agentId": "1", "agentText": "I Love Python"},
    {"agentId": "2", "agentText": "but cant seem to get my head around it"},
    {"agentId": "3", "agentText": "what are the alternatives?"}
]
}

我正在尝试通过执行以下操作来创建带有agentIds和AgentText字段的字典/密钥对值：

当我这样做时，键值对可以正常工作：

import json

with open('20190626-101200-text-messages2.json', 'r') as f:
    data = json.load(f)

for message in data['messages']:
        agentIdandText = {message['agentId']: [message['agentText']]}
        print(agentIdandText)

和输出我得到这个：

{'1': ['I love python']}
{'2': ["but cant seem to get my head around it"]}
{'3': ['what are the alternatives?']}

但是当我尝试对单词进行标记（如下）时，我开始遇到错误

from nltk.tokenize import TweetTokenizer
varToken = TweetTokenizer()

import json

with open('20190626-101200-text-messages2.json', 'r') as f:
    data = json.load(f)

for message in data['messages']:
        agentIdandText = {message['agentId']: varToken.tokenize([message['agentText']])}
        print(agentIdandText)

部分错误消息（通过评论编辑）：

return ENT_RE.sub(_convert_entity, _str_to_unicode(text, encoding)) 
TypeError: expected string or bytes-like object

所以我期望的是：

{
'1': ['I', 'love', 'python'],
'2': ['but', 'cant', 'seem', 'to', 'get', 'my', 'head', 'around', 'it'],
'3': ['what', 'are', 'the', 'alternatives?']
}

我该如何实现？

提问者

dragonfury2

被浏览

142

查看英文版

查看原文

from nltk.tokenize import TweetTokenizer varToken = TweetTokenizer() import json with open('20190626-101200-text-messages2.json', 'r') as f: data = json.load(f) output_data = {} for message in data['messages']: agentIdandText = {message['agentId']: varToken.tokenize(message['agentText'])} #print(agentIdandText) output_data.update(agentIdandText) print (output_data)

json - 在字典Python中标记单词

相关问题

热门github