Warm tip: This article is reproduced from serverfault.com, please click

text segmentation-unicode中的不可约字素簇

(text segmentation - Non reducable grapheme clusters in unicode)

发布于 2015-08-13 10:06:08

我认为“用户感知字符”(以下称为UPC)迭代器在unicode库中非常有用。UPC是指unicode标准附件29中讨论的意义,即用户将其视为字符,但是可能以unicode表示为代码点或字素簇。因为我通常使用拉丁语言,所以我总是拿出诸如“我想将ü作为一个UPC来处理,而不管UPC是一个字素簇还是单个代码点”之类的示例。

反对UPC迭代器(或字形集群迭代器,请选择)的同事“你可以规范化为NFC,然后使用代码点迭代”和“没有字形集群迭代的用例”。

我一直在思考以拉丁语为中心的用例,这些用例可能无法很好地转换为unicode领域-就像我在做终端输出一样,我想将一列填充为N列宽度,所以我想知道多少个UPC在一串...

我想我想知道的是:

  1. 是否存在无法将其标准化为单个代码点的有意义的字素簇?西方用户中可能会发生什么吗?我以韩语或阿拉伯语为例,但我不得不承认那里完全是无知。
  2. 是否有其他语言提供UPC /字形群集的迭代/操作?Unicode规范有什么建议吗?
Questioner
Spacemoose
Viewed
0
一二三 2015-08-13 19:35:04

目前尚不清楚UAX#29如何回答你的问题

  1. 即使对于仅使用拉丁字母的语言,也存在许多这样的字素簇,因为并非所有组合标记都具有与所有其他字母/形式的成分-例如,Wikipedia上此表中的空白UAX#29中的表1a具有几个非拉丁语示例。

  2. 这是UAX#29的目的:将字素群集操作概括为Unicode支持的所有语言。