fastparquet

Python support for Parquet file format

These details have not been verified by PyPI

Project links

Homepage

Project description

https://github.com/dask/fastparquet/actions/workflows/main.yaml/badge.svg

https://readthedocs.org/projects/fastparquet/badge/?version=latest

fastparquet is a python implementation of the parquet format, aiming integrate into python-based big data work-flows. It is used implicitly by the projects Dask, Pandas and intake-parquet.

We offer a high degree of support for the features of the parquet format, and very competitive performance, in a small install size and codebase.

Details of this project, how to use it and comparisons to other work can be found in the documentation.

Requirements

(all development is against recent versions in the default anaconda channels and/or conda-forge)

Required:

numpy
pandas
cython >= 0.29.23 (if building from pyx files)
cramjam
fsspec

Supported compression algorithms:

Available by default:
- gzip
- snappy
- brotli
- lz4
- zstandard
Optionally supported
- lzo

Installation

Install using conda, to get the latest compiled version:

conda install -c conda-forge fastparquet

or install from PyPI:

pip install fastparquet

You may wish to install numpy first, to help pip’s resolver. This may install an appropriate wheel, or compile from source. For the latter, you will need a suitable C compiler toolchain on your system.

You can also install latest version from github:

pip install git+https://github.com/dask/fastparquet

in which case you should also have cython to be able to rebuild the C files.

Usage

Please refer to the documentation.

Reading

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
df = pf.to_pandas()
df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])

You may specify which columns to load, which of those to keep as categoricals (if the data uses dictionary encoding). The file-path can be a single file, a metadata file pointing to other data files, or a directory (tree) containing data files. The latter is what is typically output by hive/spark.

Writing

from fastparquet import write
write('outfile.parq', df)
write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000],
      compression='GZIP', file_scheme='hive')

The default is to produce a single output file with a single row-group (i.e., logical segment) and no compression. At the moment, only simple data-types and plain encoding are supported, so expect performance to be similar to numpy.savez.

History

This project forked in October 2016 from parquet-python, which was not designed for vectorised loading of big data or parallel access.

Algorithm	Hash digest
SHA256	`e3b1fc73fd3e1b70b0de254bae7feb890436cb67e99458b88cb9bd3cc44db419`
MD5	`85a17b19ade93c801808fdeb4239f6fd`
BLAKE2b-256	`b466862da14f5fde4eff2cedc0f51a8dc34ba145088e5041b45b2d57ac54f922`

Algorithm	Hash digest
SHA256	`d20632964e65530374ff7cddd42cc06aa0a1388934903693d6d22592a5ba827b`
MD5	`f264f6a297c590a422698883ede78fb6`
BLAKE2b-256	`095a1d0d47e64816002824d4a876644e8c65540fa23f91b701f0daa726931545`

Algorithm	Hash digest
SHA256	`8b35823ac7a194134e5f82fa4a9659e42e8f9ad1f2d22a55fbb7b9e4053aabbb`
MD5	`981637e59fa285fb8c9a2a613d42f5c5`
BLAKE2b-256	`133dc076beeb926c79593374c04662a9422a76650eef17cd1c8e10951340764a`

Algorithm	Hash digest
SHA256	`6b7df5d3b61a19d76e209fe8d3133759af1c139e04ebc6d43f3cc2d8045ef338`
MD5	`6aa0b4c4f9ad8dd8a8e86b2651fed013`
BLAKE2b-256	`30fa1d95bc86e45e80669c4f374b2ca26a9e5895a1011bb05d6341b4a7414693`

Algorithm	Hash digest
SHA256	`a3afdef2895c9f459135a00a7ed3ceafebfbce918a9e7b5d550e4fae39c1b64d`
MD5	`883f5bafa7cb65b957f69678a18f8046`
BLAKE2b-256	`6ba7040507cee3a7798954e8fdbca21d2dbc532774b02b882d902b8a4a6849ef`

Algorithm	Hash digest
SHA256	`46b2db02fc2a1507939d35441c8ab211d53afd75d82eec9767d1c3656402859b`
MD5	`d708ae9c45b3247ef20c3f2fe8308548`
BLAKE2b-256	`0a21d112d0573d086b578bf04302a502e9a7605ea8f1244a7b8577cd945eec78`

Algorithm	Hash digest
SHA256	`36b5c9bd2ffaaa26ff45d59a6cefe58503dd748e0c7fad80dd905749da0f2b9e`
MD5	`a6d33fb537489182b1c4c467079dd124`
BLAKE2b-256	`bc75d0d9f7533d780ec167eede16ad88073ee71696150511126c31940e7f73aa`

Algorithm	Hash digest
SHA256	`bdadf7b6bad789125b823bfc5b0a719ba5c4a2ef965f973702d3ea89cff057f6`
MD5	`dd94a9a0d8ad0ef5189a7eb5b1d4cb41`
BLAKE2b-256	`d366e3387c99293dae441634e7724acaa425b27de19a00ee3d546775dace54a9`

Algorithm	Hash digest
SHA256	`59e5c5b51083d5b82572cdb7aed0346e3181e3ac9d2e45759da2e804bdafa7ee`
MD5	`146cc8938ece35c8826c34460253996f`
BLAKE2b-256	`47e3e7db38704be5db787270d43dde895eaa1a825ab25dc245e71df70860ec12`

Algorithm	Hash digest
SHA256	`74a0b3c40ab373442c0fda96b75a36e88745d8b138fcc3a6143e04682cbbb8ca`
MD5	`662168b71e4d9f69b0b5734da849e9a0`
BLAKE2b-256	`b1f998cd0c39115879be1044d59c9b76e8292776e99bb93565bf990078fd11c4`

Algorithm	Hash digest
SHA256	`29d5c718817bcd765fc519b17f759cad4945974421ecc1931d3bdc3e05e57fa9`
MD5	`9fa25073959d867f901ec51f42e4afdf`
BLAKE2b-256	`b025f4f87557589e1923ee0e3bebbc84f08b7c56962bf90f51b116ddc54f2c9f`

Algorithm	Hash digest
SHA256	`fbe4468146b633d8f09d7b196fea0547f213cb5ce5f76e9d1beb29eaa9593a93`
MD5	`929dde9dd30b8fbd8762fef5572c05d8`
BLAKE2b-256	`24df02fa6aee6c0d53d1563b5bc22097076c609c4c5baa47056b0b4bed456fcf`

Algorithm	Hash digest
SHA256	`63e0e416e25c15daa174aad8ba991c2e9e5b0dc347e5aed5562124261400f87b`
MD5	`190e515061e6241067496bc578d183b0`
BLAKE2b-256	`e02cb3b3e6ca2e531484289024138cd4709c22512b3fe68066d7f9849da4a76c`

Algorithm	Hash digest
SHA256	`cbbb9057a26acf0abad7adf58781ee357258b7708ee44a289e3bee97e2f55d42`
MD5	`3f11fbe0d361b380e9f3abe45171af1b`
BLAKE2b-256	`8f6c809220bc9fbe83d107df2d664c3fb62fb81867be8f5218ac66c2e6b6a358`

Algorithm	Hash digest
SHA256	`0e2d7f02f57231e6c86d26e9ea71953737202f20e948790e5d4db6d6a1a150dc`
MD5	`9762f951df3e781fdeb382993ade3d13`
BLAKE2b-256	`21fe97ed45092d0311c013996dae633122b7a51c5d9fe8dcbc2c840dc491201e`

Algorithm	Hash digest
SHA256	`403d31109d398b6be7ce84fa3483fc277c6a23f0b321348c0a505eb098a041cb`
MD5	`fdb5fbf8af0aba81373e9eeecaa7680d`
BLAKE2b-256	`c79e6d3b4188ad64ed51173263c07109a5f18f9c84a44fa39ab524fca7420cda`

Algorithm	Hash digest
SHA256	`dbad4b014782bd38b58b8e9f514fe958cfa7a6c4e187859232d29fd5c5ddd849`
MD5	`c9816f36b22396205146c9284cf7ddf0`
BLAKE2b-256	`0876068ac7ec9b4fc783be21a75a6a90b8c0654da4d46934d969e524ce287787`

Algorithm	Hash digest
SHA256	`e29ff7a367fafa57c6896fb6abc84126e2466811aefd3e4ad4070b9e18820e54`
MD5	`fe83d2e208ef3ab08b16c02c190c46a9`
BLAKE2b-256	`904f7a4ea9a7ddf0a3409873f0787f355806f9e0b73f42f2acecacdd9a8eff0a`

Algorithm	Hash digest
SHA256	`0a52eecc6270ae15f0d51347c3f762703dd667ca486f127dc0a21e7e59856ae5`
MD5	`292ab7b785886a84146eb279312eeb3b`
BLAKE2b-256	`6cecab9d5685f776a1965797eb68c4364c72edf57cd35beed2df49b34425d1df`

Algorithm	Hash digest
SHA256	`053695c2f730b78a2d3925df7cd5c6444d6c1560076af907993361cc7accf3e2`
MD5	`aa19e8806148868a462b827bf2b5220a`
BLAKE2b-256	`8572344787c685fd1531f07ae712a855a7c34d13deaa26c3fd4a9231bea7dbab`

Algorithm	Hash digest
SHA256	`9a9387e77ac608d8978774caaf1e19de67eaa1386806e514dcb19f741b19cfe5`
MD5	`6653bee83669a6e452dd00506227814f`
BLAKE2b-256	`8de8e1ede861bea68394a755d8be1aa2e2d60a3b9f6b551bfd56aeca74987e2e`

Algorithm	Hash digest
SHA256	`f9cca4c6b5969df5561c13786f9d116300db1ec22c7941e237cfca4ce602f59b`
MD5	`774fe0370ebc577e7a54ae43ac1faef7`
BLAKE2b-256	`334a1e532fd1a0d4d8af7ffc7e3a8106c0bcd13ed914a93a61e299b3832dd3d2`

Algorithm	Hash digest
SHA256	`6595d3771b3d587a31137e985f751b4d599d5c8e9af9c4858e373fdf5c3f8720`
MD5	`38b10bfa54087b214725e6c2e058de35`
BLAKE2b-256	`4f1e957090cccaede805583ca3f3e46e2762d0f9bf8860ecbce65197e47d84c1`

Algorithm	Hash digest
SHA256	`4c8401bfd86cccaf0ab7c0ade58c91ae19317ff6092e1d4ad96c2178197d8124`
MD5	`82d2fbd1b038ca0d4a69603e66229e22`
BLAKE2b-256	`0ac85c0fb644c19a8d80b2ae4d8aa7d90c2d85d0bd4a948c5c700bea5c2802ea`

Algorithm	Hash digest
SHA256	`374cdfa745aa7d5188430528d5841cf823eb9ad16df72ad6dadd898ccccce3be`
MD5	`ac6ff85938306182b141a6035e0a6053`
BLAKE2b-256	`7c51e0d6e702523ac923ede6c05e240f4a02533ccf2cea9fec7a43491078e920`

fastparquet 2024.11.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

Requirements

Installation

Usage

History

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distributions

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

File hashes

File details

File metadata

Algorithm	Hash digest
SHA256	`561202e8f0e859ccc1aa77c4aaad1d7901b2d50fd6f624ca018bae4c3c7a62ce`
MD5	`23e0b1ca0a60bca50349aa4d7b2ca275`
BLAKE2b-256	`70c01374cb43924739f4542e39d972481c1f4c7dd96808a1947450808e4e7df7`

Algorithm	Hash digest
SHA256	`5914ecfa766b7763201b9f49d832a5e89c2dccad470ca4f9c9b228d9a8349756`
MD5	`f94424375c819955a64465485b26eb8d`
BLAKE2b-256	`bb6a669f8c9cf2fc6e30c9353832f870e5a2e170b458d12c5080837f742d963d`

Algorithm	Hash digest
SHA256	`fa56b19a29008c34cfe8831e810f770080debcbffc69aabd1df4d47572181f9c`
MD5	`d50318dec593731bb138d7ecaf871aa3`
BLAKE2b-256	`31e58a0575c46a7973849f8f2a88af16618b9c7efe98f249f03e3e3de69c2b86`

Algorithm	Hash digest
SHA256	`41d1610130b5cb1ce36467766191c5418cba8631e2bfe3affffaf13f9be4e7a8`
MD5	`496368b2e34b3c3f634ef83325089edf`
BLAKE2b-256	`e695cf4b175c22160ec21e4664830763bfaa80b2cf05133ef854c3f436d01c16`

Algorithm	Hash digest
SHA256	`0b74333914f454344458dab9d1432fda9b70d62e28dc7acb1512d937ef1424ee`
MD5	`a234be2964fd37eca2b99e7b35504bb0`
BLAKE2b-256	`2037c3164261d6183d529a59afef2749821b262c8581d837faa91043837c6f76`

Algorithm	Hash digest
SHA256	`d281edd625c33628ba028d3221180283d6161bc5ceb55eae1f0ca1678f864f26`
MD5	`61d987e9b6ec29204e81978a498d629c`
BLAKE2b-256	`2c31b6c8cdb6d5df964a192e4e8c8ecd979718afb9ca7e2dc9243a4368b370e9`

Algorithm	Hash digest
SHA256	`a5ad5fc14b0567e700bea3cd528a0bd45a6f9371370b49de8889fb3d10a6574a`
MD5	`b60bfdb296da023d999033531808d722`
BLAKE2b-256	`3bad4ce73440df874479f7205fe5445090f71ed4e9bd77fdb3b740253ce82703`

Algorithm	Hash digest
SHA256	`60ccf587410f0979105e17036df61bb60e1c2b81880dc91895cdb4ee65b71e7f`
MD5	`2840f580ca191384d7f663d451297206`
BLAKE2b-256	`3d56476f5b83476a256489879b78513bee737691a80905e246a2daa30ebcc362`

Algorithm	Hash digest
SHA256	`6ec7b398a86432993441d0a08dfae59e29649c803ed64ec4b1d7c3e0855b14cb`
MD5	`be6c63e5230ef4b713a5e768cc7b0e44`
BLAKE2b-256	`91712cf345d0ccf1239108190bcd838a19b289fa1bac5676e8ae701ae24b602f`

Algorithm	Hash digest
SHA256	`4abd3426607335e5ad09be29ef4eeccdf097710e44420deac16893cee64ea0d8`
MD5	`6cfbda81c2dd46b220960b093f7cee39`
BLAKE2b-256	`cdf661986beb1a894b40e7b9e9f5d0228ca068e005e66576af0b4fa94481ffbc`