skip to navigation
skip to content

Not Logged In

hazm 0.1

Python library for digesting Persian text.

Python library for digesting Persian text.

  • Text cleaning
  • Sentence and word tokenizer
  • Word lemmatizer
  • POS tagger
  • Dependency parser
  • Corpus readers for Hamshahri and Bijankhan
  • NLTK compatible
  • Python 3.3 and 2.7 support
  • |Build Status|

Usage

>>> from hazm import Normalizer
>>> normalizer = Normalizer()
>>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند')
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند'

>>> from hazm import sent_tokenize, word_tokenize
>>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟')
['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟']
>>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟')
['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟']

>>> from hazm import Stemmer, Lemmatizer
>>> stemmer = Stemmer()
>>> stemmer.stem('کتاب‌ها')
'کتاب'
>>> lemmatizer = Lemmatizer()
>>> lemmatizer.lemmatize('می‌روم')
'رفت#رو'

>>> from hazm import POSTagger
>>> tagger = POSTagger()
>>> tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم'))
[('ما', 'PR'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('می‌خوانیم', 'V')]

>>> from hazm import DependencyParser
>>> parser = DependencyParser(tagger=POSTagger())
>>> parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید ؟'))
<DependencyGraph with 8 nodes>

Installation

pip install hazm

We also trained tagger and parser models which you may put them in resources folder of your project.

Thanks

 
File Type Py Version Uploaded on Size
hazm-0.1.linux-x86_64.exe (md5) MS Windows installer any 2013-12-14 193KB
hazm-0.1.tar.gz (md5) Source 2013-12-14 131KB
  • Downloads (All Versions):
  • 14 downloads in the last day
  • 56 downloads in the last week
  • 261 downloads in the last month