原文:The Tale of Three PRIs

作者:Dr. Ken Lunde (小林剣)

时间:2017 年 8 月 15 日

注意⚠️ 本译文获得原作者许可,转载请注明来源

译按:小林剑博士在本文中介绍了本年至今一些关于 Unicode 的情况。文章中必要的内容加以注释,大部分专有名词并无官方或通行译名,故在中文后附英文,请以原文为准。

今年到现在,已经有一些关于 IVD 1 的动态。

第一,在 1 月底, UTS#37(Unicode Ideographic Variation Database,Unicode 表意文字字形指示数据库) 2 更新,允许具有“表意”属性的字符在 IVS 中作为有效的基本字符。实际上意味着西夏文 3 和女书文字 4 现在可以被列入 IVD。

第二,今年早些时候发布了两个 PRI 5#349#351,现已关闭。 这将使 Adobe-Japan1 IVD 集合增加四个已注册的 IVS,以及新的 KRName IVD 集合注册。

第三,今天(2017 年 8 月 15 日)发布的 PRI#354,其中计划为已注册的 Moji_Joho IVD 集合增加 674 个 IVS,其中的 181 个与已注册的 Hanyo-Denshi IVS 共享。 最上方图片展示了一个 节选 。 一个新版 IVD 将在此 PRI 关闭后不久公布,其中将包括所有三个 PRI 的结果。

第四,IRG P&P(Principles & Procedures,原则和程序)第 10 版的草案将在下个月的 WG2#66 中进行讨论,有希望获得批准,其中包括关于 IVD 的更强大的语言,例如鼓励成员机构通过在新的或已有的的 IVD 集合中注册新 IVS 来处理有望统一的字符。如果你对细节感兴趣,可参见 IRG#48 页面 中为 IRG N2222 提供的两个草案。

第五,虽然与 IVD 没有直接关系,但我注意到,Unicode 9.0 版为斜杠版本(slashed)的 U+0030 0 DIGIT ZERO, <U+0030,U+FE00> 的添加了 SVS,其中一个基于 U+FF10 0 FULLWIDTH DIGIT ZERO,这是考虑到 Adobe-Japan1-6 字形集包括多个“斜杠零(slashed zero) 6 ”字形。我决定通过 L2 / 17-294 为后者提出一个新的 SVS,这将在十月的 UTC#153 中讨论。一旦被接受,两个 SVS 都将被添加到 Adobe-Japan1-6 UVS(Unicode Variation Sequence,Unicode 字形指示序列)的定义文件中。

尽管这些让我很忙,但我很高兴看到与 IVD 有关的关注和活动有所增加。


 

(译)注:

  1. IVD: Ideographic Variation Database,Unicode 表意文字字形指示数据库,Unicode 定义了两种字形指示序列,定义于 StandardizedVariants.txt 的 SVS(Standardized variation sequences,标准化字形指示序列),以及定义于 IVD 的 IVS(Ideographic variation sequences,表意文字字形指示序列)。中日韩因字源分离原则分开编码一些在不同地区写法不同的字,因而创立中日韩兼容表意文字区(CJK Compatibility Ideographs),该区中有数十个在 IVD 中注册的为给定 Unicode 字符指定字形的表意文字字形指示序列
  2. UTS:Unicode Technical Committee,Unicode 技术委员会,其负责开发维护 Unicode 标准,并在其出版物中适时公布更新(Updates)与错误(Errata)。UTS 按季度举行会议,Unicode 学术学会全会员与机构会员有全票,贡献者有半票,助理、联络人与个人成员参会但无投票权,会议纪要在线公开。
  3. 西夏文:属于汉字的派生文字,创制于西夏建国后,蒙古灭亡西夏后废止,并在一段时间后消亡,自清末逐渐考证研究。2016 年 6 月收入 Unicode 9.0 版中的 SMP(多文种补充平面),包括 6125 个 U+17000 至 U+187EC 的 西夏文字 与 755 个 U+18800 至 U+18AF2 的 西夏文字部件 ,另有叠字符号收入表意文字符号及标点区(Ideographic Symbols and Punctuation)。

    英国学者卜士礼破解的 37 个西夏文字
  4. 女书:20 世纪下叶前中国妇女用来书写诗歌等的文字,是一种音节文字。女书起源于湖南省永州市江永县,又称“江永女书”,在其附近地区的妇女流传,文革期间遭到破坏,1982 年武汉大学教授宫哲兵发现。可参见宫哲兵教授的课程 女书教授演电影 以及本站关于 Unicode 的 文章
  5. PRI:Public Review Issues,Unicode 公开审查议题,由 Unicode 学术学会不定期针对某些计划行动寻求广泛的公共评价反馈,以获得这些反馈对使用者或执行者的实际影响的信息并扩大对技术细节的审查。这些议题往往与下一版本的规范息息相关,特别是 Unicode 标准。
  6. 斜杠零:Slashed zero,斜杠零多用于区别拉丁字母“O”与数字“0”,特别是在编码系统、科学与工程程序、计算机编程和电信等领域。Unicode 支持斜杠零,但得通过一对字符组合而成而非单个字符,即一个普通的“0”,“与长斜线叠加(combining long solidus overlay)”U+0338。在 HTML 中可使用 0̸,但并非所有浏览器都支持。Unicode 9.0 版中引入了一种不同的方式实现,即利用序列 U+0030 U+FE00 中的 VS1(Variation Selector 1 ,字形指示器 1)。

    从上至下:斜杠零(slashed zero)、点零(dotted zero)、开零(plain or open zero)

发表评论

电子邮件地址不会被公开。 必填项已用*标注