Skip to main content

All things you need for Uyghur Language.

Project description

维吾尔文处理

English

动机

本人因课题需要,需要对维吾尔文进行自然语言处理,但维文的文本是自右向左排版的,在很多时候不利手动处理(如选中复制,虽然应避免手动处理,但仍有场景),而且与其他自左向右的文字混在一起时会出现一些问题(例如显示在在右侧的数字其实一个在句首一个在句末),且很多字母在词首词中词尾和单列时是不一样的,所以有些没有连字字体的系统需要单独定义字符。为了方便我这个小辣鸡我需要一个小工具转换老维文为拉丁维文。

术语

UEY : 老维文,中国新疆官方唯一官方字母表,在公共媒体和日常生活中使用;

UKY : 西里尔维文,在中亚尤其是哈萨克斯坦使用;

ULY : 维吾尔语拉丁字母是在2008年推出的,只在计算机相关领域作为辅助书写系统使用,但在所有设备上扩大使用UEY键盘后,现在基本上已经废弃了。

UYY : 新维字(也叫拼音Yeziⱪi或UPNY),这种字母也是基于拉丁文的,但现在大多数想用拉丁文打字的人都用ULY代替。

安装

$ pip install uyghur

用法

from uyghur.conversion import uey2uly

print(uey2uly('پلام، جهان'))

测试

在 CPython 3.8/3.9/3.10 和 Pypy 3.8 测试,如需自行运行测试,执行下列命令

tox

待办

  • UEY2ULY
  • ULY2UEY
  • UEY2UKY
  • UKY2UEY
  • UEY2UYY
  • UYY2UEY
  • TEXT2SPEECH

参考文献

  1. DB65/T 3690-2015 现行维吾尔文与拉丁维吾尔文编码字符转换规则

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

uyghur-0.1.1.tar.gz (43.0 kB view hashes)

Uploaded Source

Built Distribution

uyghur-0.1.1-py3-none-any.whl (29.2 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page