raspador

Biblioteca para extração de dados em documentos

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

License
- OSI Approved :: MIT License
Natural Language
- Portuguese (Brazilian)
Operating System
- OS Independent
Programming Language
- Python :: 2.7
- Python :: 3.2

Project description

Biblioteca para extração de dados em documentos semi-estruturados.

A definição dos extratores é feita através de classes como modelos, de forma semelhante ao ORM do Django. Cada extrator procura por um padrão especificado por expressão regular, e a conversão para tipos primitidos é feita automaticamente a partir dos grupos capturados.

O analisador é implementado como um gerador, onde cada item encontrado pode ser consumido antes do final da análise, caracterizando uma pipeline.

A análise é foward-only, o que o torna extremamente rápido, e deste modo qualquer iterador que retorne uma string pode ser analisado, incluindo streams infinitos.

Com uma base sólida e enxuta, é fácil construir seus próprios extratores.

Além da utilidade da ferramenta, o raspador é um exemplo prático e simples da utilização de conceitos e recursos como iteradores, geradores, meta-programação e property-descriptors.

Compatibilidade e dependências

O raspador é compatível com Python 2 e 3, testado em Python2.7.5 e Python3.2.3.

Não há dependências externas.

Testes

Os testes dependem de algumas bibliotecas externas:

coverage==3.6
nose==1.3.0
flake8==2.0
invoke==0.5.0

Você pode executar os testes com nosetests:

$ nosetests

E adicionalmente, verificar a compatibilidade com o PEP8:

$ flake8 raspador testes

Ou por conveniência, executar os dois em sequência com invoke:

$ invoke test

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

License
- OSI Approved :: MIT License
Natural Language
- Portuguese (Brazilian)
Operating System
- OS Independent
Programming Language
- Python :: 2.7
- Python :: 3.2

Release history Release notifications | RSS feed

0.2.2

Oct 30, 2013

0.2.1

Oct 4, 2013

0.2.0

Oct 3, 2013

0.1.3

Aug 25, 2013

This version

0.1.2

Aug 17, 2013

0.1.1

Aug 9, 2013

0.1.0

Aug 9, 2013

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

raspador-0.1.2.tar.gz (7.1 kB view hashes)

Uploaded Aug 17, 2013 Source

Hashes for raspador-0.1.2.tar.gz

Hashes for raspador-0.1.2.tar.gz
Algorithm	Hash digest
SHA256	`294460c34f7137c4b3b5e6330b98c484fe49340635d0984dff8694bb474c9881`
MD5	`d18fabe37c23a51551c2c13c99e1db97`
BLAKE2b-256	`76f2e1d7378746b62111c031922034e3d1c2cb9802b8af26f0df95cdb8da7163`