原文:“Houston, we have a problem… …with U+2F9B2”

作者:Dr. Ken Lunde (小林剣)

时间:2017 年 9 月 4 日

注意⚠️ 本译文获得原作者许可,转载请注明来源

译按:支持香港特别行政区字形的思源字体即将发布,或许很多人并不会用到䕫、夔、蘷、虁、𡕸、𡕿、𡖂或𣀚,但从字符编码的角度,还是一个值得讨论的问题。

U+2F9B2 䕫 1 是一个中日韩兼容表意文字 2,同其他 所有中日韩兼容表意文字一样,它被规范地分解成一中日韩统一表意文字,且有一个使用其标准等价 3 作为其基本字符 4 的标准化字形指示序列(Standardized Variation Sequence, SVS)。这个字符也有一个单一的来源参考——H-8FA8,对应香港增补字符集 5 中的 0x8FA8。

有何问题呢?简单来说,其标准等价——U+456B 䕫,既不在香港增补字符集中,也不在大五码中:

如果这个字符被正规化 6,无论正规形式 7 为何,它都会被转换为其标准等价——U+456B 䕫,而这一字符无法包含在专门为香港特别行政区使用的字体中。此外,即使使用了其 SVS <U+456B, U+FE00>,也依然存在类似的问题,因为其基本字符也不太可能用于香港特别行政区的字体中。

如上述 U+2F9B2  䕫  的元数据所示,还有另外两个相关的有 H-源来源参考的中日韩统一表意文字——U+5914 夔 和 U+270CD 𧃍,它们的 代码表 摘录如下:

不论如何,我想到了三个可能的解决方案:

  1. 将 U+456B  加入香港增补字符集,并提交 横向扩展 ,将 HD-345B 添加为 U+456B 䕫  的新 H 源来源参考。
  2. 将 HKSCS 0x8FA8,  H-8FA8 的映射从 U+2F9B2 䕫  改为 U+456B  䕫。
  3. 将 HKSCS 0x8FA8, H-8FA8 的映射从 U+2F9B2 䕫  改为 U+270F0  𧃰

第二个和第三个解决方案将有效地孤立 U+2F9B2 䕫,这意味着使用“UCI”前缀的新 U-源的来源参考将需被分配并被添加到 UAX#45(U-源表意文字)。第三个解决方案,即 U + 270F0 𧃰 如下:

我选择第二个解决方案,主要是因为 U+456B 䕫 目前未包含于香港增补字符集中,这样做减少了香港增补字符集所需的中日韩兼容表意文字的数量,这是非常好。此外,U+2F9B2 䕫 标准分解为 U+456B  ,这意味着它们是统一的,任何使用正规化的 U+2F9B2 䕫 将成为 U+456B  。最好的替代解决方案是第一个,简单地说就是将 U+456B 䕫 添加到香港增补字符集中,但这意味着这两个字符的代表字形(representative glyphs)是相同的,而 U+456B 䕫是首选的,因为它是中日韩统一表意文字。

最后,将 U+2F9B2 䕫 的标准等价从 U+456B 䕫 改为 U+5914 夔 是完全不启动(complete non-starter )的,这是出于稳定性政策的考量,正如出于正规化的考量而编译一个新的中日韩兼容表意文字。

如果你有任何想法,请给予回复。


 

(译)注:

  1. 䕫:kuí,U+5914 夔 的异体字,上古时期龙形异兽,一足,象有角、手、人面之形。
  2. 中日韩兼容表意文字:CJK Compatibility Ideographs,中日韩统一表意文字中因字源分离原则未与正式字集中的字形统一的文字,参见 Unicode 中日韩兼容表意文字代码表

    Unicode 中日韩统一表意文字表,10.0 版

  3. 标准等价:为同许多现存的标准兼容,Unicode 中包含了许多特殊字符,这些字符的功能会和其它字符或字符序列等价,故 Unicode 将一些码位序列定义为相等的,并提供了两种等价概念:标准等价 和兼容等价,前者是后者的子集。标准等价的基础概念为字符的组成和分解的交互使用。合成指将简单的字符合并成较少的预组字符的过程,如字符 n 和组合字符~可以组成统一码ñ。分解则是反向过程,即将预组字符变回部件。 标准等价是指保持视觉上和功能上的等价。例如,含附加符号字母被视为和分解后的字母及其附加符号是标准等价。换句话说,预组字符‘ü’和由‘u’及 ‘¨’所组成的序列是标准等价。相似地,Unicode 统合了一些希腊附加符号和外观与附加符号类似的标点符号。
  4. 基本字符:除具有组合标记普通类(General Category of Combining Mark)(M)外的图形字符。如拉丁文排印中常见的附加符号,用来改变其它字符所用的字符即为组合字符,在组合字符序列中,基本字符是应用于组合标记的初始字符。
  5. 香港增补字符集:参见往期文章详细介绍—— 关于《香港增补字符集—2016》
  6. 正规化:文字处理软件在 Unicode 字符串的搜索和排序时,须考虑到等价性,这一特性可使用户在搜索时将找到在视觉上无法区分的字形。
  7. 正规形式:Unicode 定义了四种正规形式:

    NFD (Normalization Form Canonical Decomposition) 以标准等价方式来分解
    NFC (Normalization Form Canonical Composition) 以标准等价方式来分解,然后以标准等价重组之。若是 singleton 的话,重组结果有可能和分解前不同。
    NFKD (Normalization Form Compatibility Decomposition) 以兼容等价方式来分解
    NFKC (Normalization Form Compatibility Composition) 以兼容等价方式来分解,然后以标准等价重组之。

    所有的形式都使用标准顺序,以使结果序列保证是等价类中的唯一形式。

发表评论

电子邮件地址不会被公开。 必填项已用*标注