С помощью pymorphy извлекаем из текстов множества эпитетов, нормализуем и сохраняем их в БД sqlite.

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

epythets

С помощью pymorphy извлекаем, нормализуем из текста множество эпитетов, сохраняя их в sqlite.

Зачем?

Так можно извлечь специфические эпитеты и неологизмы из текста для дальнейшего использования.

Зачем-зачем?

Затем.

Эпитеты?

Словосочетания соответствующие шаблону

< прилагательное | причастие в страдательном залоге > < существительное >

при этом оба слова изначально согласованы по числу и полу. Перед сохранением оба слова приводятся в именительный падеж.

Как использовать

Установка

Из pypi:

sudo pip3 install epythets

Альтернативые способы.

Совместимость

Поддерживается только python3.8+. Если хочется что-то старее - можно форкнуть, поправить в mgrep.py единственное использование := на две отдельные строчки и установить из исходников.

Обучение

БД будет инициализирована в файле epythets.sqlite в текущей директории при первом запуске, если этого файла ещё нет. Путь можно переопределить параметром --db /your/db.sqlite, но его придётся указывать для каждого скармливаемого файла.

"Обучаем" на классике, чтобы типовые обороты не считались спецификой последующих текстов. На самом деле одного "Идиота" для этого мало - ~2.8к фраз. Метка (label) "idiot" внутри БД будет автоматически вычислена из имени файла.

epythets --filename texts/idiot.txt

Дообучим на нескольких произведениях Говарда Филиппса Лавкрафта. Из "Случая Чарльза Декстера Уальда" извлеклось около 2 500 фраз, а из "Хребтов Безумия" - 1 500, при значительно меньших длинах текста.

В этом примере используется альтернативный подход с флагами утилиты - метку указываем явно, а файл читаем с stdin.

epythets --label 'wild' < texts/wild.txt
epythets --label 'madness' < texts/at_the_mountains_of_madness.txt

"Шлифанём" "Снами в Ведьмином Доме" - 662 фразы, но поскольку мы неплохо "обучились" ранее около 40-60% извлечённых фраз являются довольно-таки специфичными для этого произведения. Что и было моей исследовательской целью. Если увеличить объём первичного обучения, выйдет ещё точнее.

epythets --filename texts/witchhouse.txt

Просмотр результатов

Подключаемся к базе данных

sqlite3 epythets.sqlite

И копаемся себе в извлечённых фразах:

SELECT phrase FROM phrase WHERE label = 'witchhouse';

Современная Работа
Замкнутое Пространство
Детские Кости
Скрытый Страх
Другая Находка
Странные Умолчания
Скупые Сведения
Пятипалые Лапки
Маленький Череп
Режущий Слух
...

Как посмотреть статистику по файлам (сколько эпитетов из какого текста извлечено):

SELECT label, COUNT(DISTINCT phrase) FROM phrase GROUP BY label;

label	count
ilf_petrov:12_chairs	3891
gogol:viy	243
platon:gosudarstvo	322
dostoevsky:idiot	2271
lovecraft:madness	1385
lovecraft:wild	1334
lovecraft:witchhouse	615
limstin_python:fun_in_morrowind	1362

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

0.2.6

Jun 30, 2022

0.2.5

Jun 29, 2022

0.2.4

Jun 29, 2022

0.2.3

Jun 28, 2022

0.2.2

Jun 28, 2022

0.2.1

Jun 28, 2022

0.2.0

Jun 28, 2022

0.1.6

Jun 25, 2022

0.1.5

Jun 25, 2022

0.1.4

Jun 22, 2022

0.1.1

Jun 20, 2022

0.1.0

Jun 19, 2022

0.0.10

Jun 17, 2022

0.0.7

Jun 15, 2022

0.0.6

Jun 15, 2022

0.0.5

Jun 14, 2022

0.0.4

Jun 12, 2022

This version

0.0.3

Jun 12, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

epythets-0.0.3.tar.gz (8.9 kB view hashes)

Uploaded Jun 12, 2022 Source

Hashes for epythets-0.0.3.tar.gz

Hashes for epythets-0.0.3.tar.gz
Algorithm	Hash digest
SHA256	`2863f7c652283f40f421fb47b2ffa19c04d336085e821e4601d55ed69da37268`
MD5	`5c305bb88b43dd4efa8e7e9b8afd5530`
BLAKE2b-256	`73898c66bd75ad85cee55c63b5e66173ab331c28642c4ef8aa0dea6e0034a120`