streamcorpus_pipeline

Tools for building streamcorpus objects, such as those used in TREC.

These details have not been verified by PyPI

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

TREC KBA Data
=============

kba.pipeline is a document processing pipeline that assembles
streamcorpus objects from raw data sets for us in TREC KBA.

TREC KBA 2013
-------------
1006305073 all-stream-ids.suc.txt
884018982 all-stream-ids.doc_ids.suc.txt

kba.pipeline
-------------

The kba.pipeline python module contains tools for processing
streamcorpus.StreamItems stored in Chunks. It includes transform
functions for getting clean_html, clean_visible text, creating labels
from hyperlinks to particular sites (e.g. Wikipedia), and taggers like
LingPipe and Stanford CoreNLP, that make Tokens and Sentences.

python2.7
---------
To create a python2.7 virtualenv, do this:

wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz
tar xzf Python-2.7.3.tgz
cd Python-2.7
./configure --prefix /data/trec-kba/installs/py27
make install
cd ..
wget http://pypi.python.org/packages/source/v/virtualenv/virtualenv-1.8.4.tar.gz#md5=1c7e56a7f895b2e71558f96e365ee7a7
tar xzf virtualenv-1.8.4.tar.gz
cd virtualenv-1.8.4/
/data/trec-kba/installs/py27/bin/python setup.py install
cd ..
/data/trec-kba/installs/py27/bin/virtualenv --distribute -p /data/trec-kba/installs/py27/bin/python py27env

installation
------------

Easiest to put this entire repo at a path like

/data/trec-kba/installs/trec-kba-data

which is hardcoded into these three files:

scripts/spinn3r-transform.sh
scripts/spinn3r-transform.submit
configs/spinn3r-transform.yaml

Then, you need these two other directories:

/data/trec-kba/keys ---- from the trec-kba-secret-keys.tar.gz that is in the Dropbox
/data/trec-kba/third/lingpipe-4.1.0 --- also in the dropbox

As a test run this:

## first go inside the virtualenv
source /data/trec-kba/installs/py27env/bin/activate

## install all the python libraries
make install

## run a simple test
make john-smith-simple

and if that works, then try

make john-smith

To try doing the real pull/push from AWS, you can put the input paths here:
/data/trec-kba/installs/trec-kba-data/spinn3r-transform
zcat spinn3r-transform-input-paths.txt.gz | split -l 150 -a 4
b=0; for a in `ls ?????`; do mv $a input.$b; let b=$b+1; done;

and then locally as a test:

cat /data/trec-kba/installs/trec-kba-data/spinn3r-transform/input.0 | python -m kba.pipeline.run configs/spinn3r-transform.yaml

and then, after seeing that work edit the submit script to have as
many jobs as their are input files:

condor_submit scripts/spinn3r-transform.submit

There is one key problem with this, which we discussed on the phone:
when the job dies, it starts over on the input list. Let's discuss
using the zookeeper "task_queue" stage.

running on task_queue: zookeeper
--------------------------------

To use the zookeeper task queue, you must install zookeeper on a
computer that your cluster can access. Here is an example zookeeper
config:

# The number of milliseconds of each tick
tickTime=10000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
dataDir=/var/zookeeper
# the port at which the clients will connect
clientPort=2181
server.0=localhost:2888:3888
maxClientCnxns=2000

Note the large maxClientCnxns for running with many nodes in condor,
and also not the 10sec tickTime, which is needed to avoid frequent
session timeouts from condor slots that are working hard.

To make a job run off the zookeeper task queue, make these changes:

configs/spinn3r-transform.yaml:

- task_queue: stdin
+ #task_queue: stdin
+
+ task_queue: zookeeper
+ zookeeper:
+ namespace: spinn3r-transform
+ zookeeper_address: mitas-2.csail.mit.edu:2181

scripts/spinn3r-transform.submit:

-Input = /data/trec-kba/spinn3r-transform/input.$(PROCESS)
+
+## disable stdin because we are using task_queue: zookeeper
+#Input = /data/trec-kba/spinn3r-transform/input.$(PROCESS)

Important:
Also update the number of jobs at the end of the .submit file.

and then do these steps on the command line:

## see the help text
python -m kba.pipeline.load configs/spinn3r-transform.yaml -h

## load the data
python -m kba.pipeline.load configs/spinn3r-transform.yaml --load spinn3r-transform-input-paths.txt

## check the counts -- might take a bit to run, so background and come back to it
python -m kba.pipeline.load configs/spinn3r-transform.yaml --counts >& counts &

## launch the jobs
condor_submit scripts/spinn3r-transform.submit

## watch the logs for the jobs
tail -f ../spinn3r-transform/{err,out}*

Periodically check the --counts on the queue and see how fast it is
going. Do we need to turn off the lingpipe stage?

Project details

These details have not been verified by PyPI

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.7.21

Mar 11, 2017

0.7.19

Sep 19, 2016

0.7.19.dev1 pre-release

Aug 30, 2016

0.7.18

Jul 21, 2016

0.7.18.dev3 pre-release

Jul 15, 2016

0.7.17

Jun 29, 2016

0.7.17.dev1 pre-release

Apr 18, 2016

0.7.16

Apr 8, 2016

0.7.16.dev3 pre-release

Feb 3, 2016

0.7.16.dev2 pre-release

Feb 1, 2016

0.7.15

Nov 9, 2015

0.7.15.dev5 pre-release

Oct 9, 2015

0.7.15.dev4 pre-release

Oct 9, 2015

0.7.15.dev3 pre-release

Oct 5, 2015

0.7.15.dev2 pre-release

Sep 24, 2015

0.7.14

Sep 6, 2015

0.7.14.dev1 pre-release

Aug 17, 2015

0.7.13

Aug 17, 2015

0.7.13.dev5 pre-release

Aug 11, 2015

0.7.13.dev4 pre-release

Aug 11, 2015

0.7.13.dev3 pre-release

Aug 10, 2015

0.7.13.dev1 pre-release

Aug 6, 2015

0.7.12

Jul 31, 2015

0.7.12.dev5 pre-release

Jul 16, 2015

0.7.12.dev4 pre-release

Jul 15, 2015

0.7.12.dev3 pre-release

Jul 13, 2015

0.7.12.dev1 pre-release

Jul 9, 2015

0.7.11

Jul 8, 2015

0.7.11.dev3 pre-release

Jul 7, 2015

0.7.11.dev1 pre-release

Jul 7, 2015

0.7.10.dev2 pre-release

Jun 17, 2015

0.7.10.dev1 pre-release

Jun 11, 2015

0.7.9

Jun 1, 2015

0.7.8.dev1 pre-release

May 31, 2015

0.7.7

May 31, 2015

0.7.7.dev6 pre-release

May 31, 2015

0.7.7.dev2 pre-release

May 29, 2015

0.7.7.dev1 pre-release

May 29, 2015

0.7.6

May 26, 2015

0.7.6.dev7 pre-release

May 26, 2015

0.7.6.dev3 pre-release

May 22, 2015

0.7.6.dev1 pre-release

May 19, 2015

0.7.5

May 19, 2015

0.7.5.dev7 pre-release

May 18, 2015

0.7.5.dev5 pre-release

May 18, 2015

0.7.5.dev1 pre-release

May 13, 2015

0.7.4

May 12, 2015

0.7.4.dev1 pre-release

May 11, 2015

0.7.3

May 11, 2015

0.7.2

May 5, 2015

0.7.2.dev5 pre-release

May 5, 2015

0.7.2.dev2 pre-release

Apr 29, 2015

0.7.2.dev1 pre-release

Apr 28, 2015

0.7.1

Apr 28, 2015

0.7.0

Apr 27, 2015

0.6.8.dev24 pre-release

Apr 27, 2015

0.6.8.dev23 pre-release

Apr 27, 2015

0.6.8.dev22 pre-release

Apr 27, 2015

0.6.8.dev21 pre-release

Apr 23, 2015

0.6.8.dev20 pre-release

Apr 23, 2015

0.6.8.dev1 pre-release

Apr 22, 2015

0.6.7

Apr 12, 2015

0.6.7.dev3 pre-release

Apr 11, 2015

0.6.7.dev2 pre-release

Apr 3, 2015

0.6.6

Mar 28, 2015

0.6.5

Mar 24, 2015

0.6.4

Mar 24, 2015

0.6.4.dev10 pre-release

Mar 24, 2015

0.6.4.dev8 pre-release

Mar 9, 2015

0.6.4.dev7 pre-release

Mar 3, 2015

0.6.4.dev5 pre-release

Mar 2, 2015

0.6.4.dev4 pre-release

Mar 1, 2015

0.6.4.dev3 pre-release

Feb 25, 2015

0.6.4.dev2 pre-release

Feb 18, 2015

0.6.4.dev1 pre-release

Jan 29, 2015

0.6.3

Jan 27, 2015

0.6.2

Jan 27, 2015

0.6.1

Jan 26, 2015

0.6.1.dev3 pre-release

Jan 26, 2015

0.6.1.dev1 pre-release

Jan 26, 2015

0.6.0

Jan 26, 2015

0.5.54

Jan 18, 2015

0.5.54.dev3 pre-release

Jan 16, 2015

0.5.53.dev5 pre-release

Jan 14, 2015

0.5.53.dev4 pre-release

Jan 14, 2015

0.5.53.dev3 pre-release

Jan 13, 2015

0.5.53.dev2 pre-release

Jan 13, 2015

0.5.53.dev1 pre-release

Dec 17, 2014

0.5.52

Dec 17, 2014

0.5.51

Dec 16, 2014

0.5.50

Dec 16, 2014

0.5.50.dev2 pre-release

Dec 10, 2014

0.5.49

Dec 9, 2014

0.5.49.dev4 pre-release

Dec 9, 2014

0.5.49.dev3 pre-release

Dec 9, 2014

0.5.49.dev2 pre-release

Dec 9, 2014

0.5.48

Dec 9, 2014

0.5.48.dev1 pre-release

Dec 9, 2014

0.5.47

Dec 9, 2014

0.5.46

Dec 8, 2014

0.5.46.dev2 pre-release

Dec 8, 2014

0.5.45

Dec 8, 2014

0.5.44.dev2 pre-release

Nov 25, 2014

0.5.43

Nov 24, 2014

0.5.43.dev8 pre-release

Nov 13, 2014

0.5.43.dev7 pre-release

Nov 12, 2014

0.5.43.dev6 pre-release

Nov 11, 2014

0.5.43.dev5 pre-release

Nov 11, 2014

0.5.42.dev29 pre-release

Nov 6, 2014

0.5.42.dev27 pre-release

Nov 6, 2014

0.5.42.dev24 pre-release

Oct 30, 2014

0.5.42.dev21 pre-release

Oct 28, 2014

0.5.42.dev20 pre-release

Oct 21, 2014

0.5.42.dev19 pre-release

Oct 21, 2014

0.5.42.dev16 pre-release

Oct 20, 2014

0.5.42.dev14 pre-release

Oct 16, 2014

0.5.42.dev13 pre-release

Oct 15, 2014

0.5.42.dev12 pre-release

Oct 14, 2014

0.5.42.dev11 pre-release

Oct 13, 2014

0.5.42.dev10 pre-release

Oct 10, 2014

0.5.42.dev9 pre-release

Oct 9, 2014

0.5.42.dev3 pre-release

Oct 2, 2014

0.5.42.dev2 pre-release

Oct 2, 2014

0.5.42.dev1 pre-release

Oct 2, 2014

0.5.41.dev2 pre-release

Sep 15, 2014

0.5.41.dev1 pre-release

Sep 10, 2014

0.5.39

Oct 10, 2014

0.5.39.dev10 pre-release

Sep 8, 2014

0.5.39.dev8 pre-release

Sep 4, 2014

0.5.39.dev7 pre-release

Sep 4, 2014

0.5.38

Aug 18, 2014

0.5.38.dev10 pre-release

Aug 18, 2014

0.5.38.dev7 pre-release

Aug 13, 2014

0.5.38.dev6 pre-release

Aug 7, 2014

0.5.38.dev4 pre-release

Aug 6, 2014

0.5.38.dev3 pre-release

Aug 5, 2014

0.5.38.dev2 pre-release

Aug 1, 2014

0.5.38.dev1 pre-release

Jul 31, 2014

0.5.37

Jul 31, 2014

0.5.35.dev2 pre-release

Jul 31, 2014

0.5.34.dev2 pre-release

Jul 31, 2014

0.5.33

Jul 31, 2014

0.5.32.dev26 pre-release

Jul 29, 2014

0.5.32.dev25 pre-release

Jul 29, 2014

0.5.32.dev23 pre-release

Jul 22, 2014

0.5.32.dev22 pre-release

Jul 15, 2014

0.5.32.dev21 pre-release

Jul 14, 2014

0.5.32.dev20 pre-release

Jul 2, 2014

0.5.32.dev18 pre-release

Jun 30, 2014

0.5.32.dev17 pre-release

Jun 30, 2014

0.5.32.dev16 pre-release

Jun 26, 2014

0.5.32.dev14 pre-release

Jun 26, 2014

0.5.32.dev12 pre-release

Jun 26, 2014

0.5.32.dev11 pre-release

Jun 26, 2014

0.5.32.dev9 pre-release

Jun 23, 2014

0.5.32.dev8 pre-release

Jun 25, 2014

0.5.32.dev7 pre-release

Jun 24, 2014

0.5.32.dev6 pre-release

Jun 24, 2014

0.5.32.dev5 pre-release

Jun 23, 2014

0.5.32.dev3 pre-release

Jun 19, 2014

0.5.32.dev2 pre-release

Jun 19, 2014

0.5.32.dev1 pre-release

Jun 19, 2014

0.5.31

Jun 17, 2014

0.5.30

Jun 9, 2014

0.5.29.dev2 pre-release

Jun 5, 2014

0.5.29.dev1 pre-release

Jun 3, 2014

0.5.28.dev1 pre-release

Jun 2, 2014

0.5.26.dev8 pre-release

May 28, 2014

0.5.26.dev6 pre-release

May 28, 2014

0.5.26.dev5 pre-release

May 28, 2014

0.5.26.dev4 pre-release

May 28, 2014

0.5.26.dev3 pre-release

May 28, 2014

0.5.25

May 18, 2014

0.5.24

May 15, 2014

0.5.23

May 13, 2014

0.5.23.dev7 pre-release

May 9, 2014

0.5.23.dev1 pre-release

Apr 29, 2014

0.5.22

Apr 29, 2014

0.5.21

Apr 28, 2014

0.5.19

Apr 23, 2014

0.5.18

Apr 23, 2014

0.5.18.dev3 pre-release

Apr 23, 2014

0.5.16

Apr 22, 2014

0.5.15

Apr 22, 2014

0.5.14

Apr 22, 2014

0.5.13

Apr 22, 2014

0.5.12

Apr 22, 2014

0.5.10

Apr 22, 2014

0.5.8

Apr 22, 2014

0.5.7

Apr 22, 2014

0.5.6.dev9 pre-release

Apr 9, 2014

0.5.5

Mar 26, 2014

0.5.4

Mar 26, 2014

0.5.4.dev1 pre-release

Mar 26, 2014

0.5.3.dev8 pre-release

Mar 20, 2014

0.5.2

Mar 12, 2014

0.5.1

Mar 12, 2014

0.5.1.dev8 pre-release

Mar 10, 2014

0.5.1.dev4 pre-release

Mar 6, 2014

0.5.1.dev3 pre-release

Mar 6, 2014

0.5.0

Mar 3, 2014

0.4.5.dev7 pre-release

Feb 12, 2014

0.4.5.dev5 pre-release

Feb 11, 2014

0.4.5.dev1 pre-release

Feb 10, 2014

0.4.4

Feb 5, 2014

0.4.4.dev3 pre-release

Feb 5, 2014

0.4.3

Feb 5, 2014

0.4.2

Feb 5, 2014

0.4.2.dev8 pre-release

Jan 28, 2014

0.4.2.dev7 pre-release

Jan 28, 2014

0.4.2.dev1 pre-release

Jan 27, 2014

0.4.1.dev11 pre-release

Jan 23, 2014

0.4.1.dev9 pre-release

Jan 23, 2014

0.4.1.dev1 pre-release

Jan 21, 2014

0.4.0

Jan 21, 2014

0.3.42.dev2 pre-release

Mar 3, 2014

0.3.40.dev9 pre-release

Feb 17, 2014

0.3.40.dev8 pre-release

Feb 17, 2014

0.3.40.dev7 pre-release

Feb 13, 2014

0.3.38.dev1 pre-release

Jan 15, 2014

0.3.37

Jan 10, 2014

0.3.36

Jan 9, 2014

0.3.36.dev27 pre-release

Jan 5, 2014

0.3.36.dev26 pre-release

Dec 31, 2013

0.3.36.dev25 pre-release

Dec 30, 2013

This version

0.3.36.dev24 pre-release

Dec 27, 2013

0.3.36.dev18 pre-release

Dec 19, 2013

0.3.36.dev17 pre-release

Dec 9, 2013

0.3.36.dev10 pre-release

Dec 3, 2013

0.3.36.dev8 pre-release

Dec 3, 2013

0.3.36.dev7 pre-release

Dec 3, 2013

0.3.34.dev2 pre-release

Nov 21, 2013

0.3.33

Nov 21, 2013

0.3.32

Nov 16, 2013

0.3.32.dev1 pre-release

Nov 14, 2013

0.3.31.dev8 pre-release

Nov 14, 2013

0.3.30.dev7 pre-release

Nov 13, 2013

0.3.30.dev6 pre-release

Nov 13, 2013

0.3.30.dev2 pre-release

Nov 13, 2013

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

streamcorpus_pipeline-0.3.36.dev24.tar.gz (12.7 MB view hashes)

Uploaded Dec 27, 2013 Source

Built Distribution

streamcorpus_pipeline-0.3.36.dev24-py2.7.egg (13.6 MB view hashes)

Uploaded Dec 27, 2013 Source

Hashes for streamcorpus_pipeline-0.3.36.dev24.tar.gz

Hashes for streamcorpus_pipeline-0.3.36.dev24.tar.gz
Algorithm	Hash digest
SHA256	`4e05a790cac449fd79d9a464630234cf419dbcd29ea81543d9f8e6d6eb870f8d`
MD5	`fb97e08185ad3dadf7acbe9ac4dceb4d`
BLAKE2b-256	`e25f2ebe99855aede9bd47b57bbcbe65212a1917de89570bdf8b1c6b14d11800`

Hashes for streamcorpus_pipeline-0.3.36.dev24-py2.7.egg

Hashes for streamcorpus_pipeline-0.3.36.dev24-py2.7.egg
Algorithm	Hash digest
SHA256	`bd4ff366e42a7e6130eb65550aaccf585af97c1c1e2fa204d6c381ee91d0f5ad`
MD5	`a47f12c87e9dd2077cb0b4a75c4b1770`
BLAKE2b-256	`9774e6c916ee09b8c1e20bf003b3a2652130a5b1b95a3b421610dc68209823fe`