Molcule Transformer X Model

These details have not been verified by PyPI

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Development Status
- 4 - Beta
Environment
- Console
Intended Audience
- Science/Research
Operating System
- POSIX
Programming Language
- Python
- Python :: 3

Project description

MolTx

PyPI - Python Version

Installation

pip install moltx

Usage

Pretrain

import torch

# prepare dataset
from moltx import datasets, tokenizers
tk = tokenizers.MoltxTokenizer.from_jsonfile(spe_codes=True, token_size=512)
ds = datasets.AdaMR(tokenizer=tk, device=torch.device('cpu'))
generic_smiles = ["C=CC=CC=C", "...."]
canonical_smiles = ["c1cccc1c", "..."]
src, tgt, out = ds(generic_smiles, canonical_smiles)

# train
import torch.nn as nn
from torch.optim import Adam
from moltx import models
conf = models.AdaMRConfig(token_size=512, max_len=256)
model = models.AdaMR(conf)
crt = nn.CrossEntropyLoss(ignore_index=0)
optim = Adam(model.parameters(), lr=0.1)

optim.zero_grad()
pred = model(src, tgt)
loss = crt(pred.view(-1, pred.size(-1)), out.view(-1))
loss.backward()
optim.step()

# save ckpt
torch.save(model.state_dict(), '/path/to/adamr.ckpt')

Finetune

# Classifier finetune
from moltx import datasets, tokenizers
tk = tokenizers.MoltxTokenizer.from_jsonfile(spe_codes=True, token_size=512)

ds = datasets.AdaMRClassifier(tokenizer=tk, device=torch.device('cpu'))
smiles = ["c1cccc1c", "CC[N+](C)(C)Cc1ccccc1Br"]
labels = [0, 1]
src, tgt, out = ds(smiles, labels)

from moltx import models
pretrained_conf = models.AdaMRConfig(token_size=512, max_len=256, ...)
model = models.AdaMRClassifier(num_classes=2, conf=pretrained_conf)
model.load_ckpt('/path/to/adamr.ckpt')
crt = nn.CrossEntropyLoss()
optim = Adam(model.parameters(), lr=0.1)

optim.zero_grad()
pred = model(src, tgt)
loss = crt(pred, out)
loss.backward()
optim.step()

torch.save(model.state_dict(), '/path/to/classifier.ckpt')

# Regression finetune
ds = datasets.AdaMRRegression(tokenizer=tk, device=torch.device('cpu'))
smiles = ["c1cccc1c", "CC[N+](C)(C)Cc1ccccc1Br"]
values = [0.23, 0.12]
src, tgt, out = ds(smiles, values)

model = models.AdaMRRegression(conf=pretrained_conf)
model.load_ckpt('/path/to/adamr.ckpt')
crt = nn.MSELoss()

optim.zero_grad()
pred = model(src, tgt)
loss = crt(pred, out)
loss.backward()
optim.step()

torch.save(model.state_dict(), '/path/to/regression.ckpt')

# Distributed Generation
ds = datasets.AdaMRDistGeneration(tokenizer=tk, device=torch.device('cpu'))
smiles = ["c1cccc1c", "CC[N+](C)(C)Cc1ccccc1Br"]
src, tgt, out = ds(smiles)

model = models.AdaMRDistGeneration(conf=pretrained_conf)
model.load_ckpt('/path/to/adamr.ckpt')
crt = nn.CrossEntropyLoss(ignore_index=0)

optim.zero_grad()
pred = model(src, tgt)
loss = crt(pred.view(-1, pred.size(-1)), out.view(-1))
loss.backward()
optim.step()

torch.save(model.state_dict(), '/path/to/distgen.ckpt')

# Goal Generation
ds = datasets.AdaMRGoalGeneration(tokenizer=tk, device=torch.device('cpu'))
smiles = ["c1cccc1c", "CC[N+](C)(C)Cc1ccccc1Br"]
goals = [0.23, 0.12]
src, tgt, out = ds(smiles, goals)

model = models.AdaMRGoalGeneration(conf=pretrained_conf)
model.load_ckpt('/path/to/adamr.ckpt')
crt = nn.CrossEntropyLoss(ignore_index=0)

optim.zero_grad()
pred = model(src, tgt)
loss = crt(pred.view(-1, pred.size(-1)), out.view(-1))
loss.backward()
optim.step()

torch.save(model.state_dict(), '/path/to/goalgen.ckpt')

Inference

from moltx import models, pipelines, tokenizers
tk = tokenizers.MoltxTokenizer.from_jsonfile(spe_codes=True, token_size=512)

# AdaMR
conf = models.AdaMRConfig(...) # use config matching ckpt
model = models.AdaMR(conf)
model.load_ckpt('/path/to/adamr.ckpt')
pipeline = pipelines.AdaMR(tk, model)
pipeline("C=CC=CC=C")
# {"smiles": ["c1ccccc1"], probabilities: [0.9]}

# Classifier
conf = models.AdaMRConfig(...) # use config matching ckpt
model = models.AdaMRClassifier(2, conf)
model.load_ckpt('/path/to/classifier.ckpt')
pipeline = pipelines.AdaMRClassifier(tk, model)
pipeline("C=CC=CC=C")
# {"label": [1], "probability": [0.67]}

# Regression
conf = models.AdaMRConfig(...) # use config matching ckpt
model = models.AdaMRRegression(2, conf)
model.load_ckpt('/path/to/regression.ckpt')
pipeline = pipelines.AdaMRRegression(tk, model)
pipeline("C=CC=CC=C")
# {"value": [0.467], "probability": [0.67]}

# DistGeneration
conf = models.AdaMRConfig(...) # use config matching ckpt
model = models.AdaMRDistGeneration(conf)
model.load_ckpt('/path/to/distgen.ckpt')
pipeline = pipelines.AdaMRDistGeneration(tk, model)
pipeline(k=2)
# {"smiles": ["c1ccccc1", "...."], probabilities: [0.9, 0.1]}

# GoalGeneration
conf = models.AdaMRConfig(...) # use config matching ckpt
model = models.AdaMRGoalGeneration(conf)
model.load_ckpt('/path/to/goalgen.ckpt')
pipeline = pipelines.AdaMRGoalGeneration(tk, model)
pipeline(0.48, k=2)
# {"smiles": ["c1ccccc1", "...."], probabilities: [0.9, 0.1]}

Project details

These details have not been verified by PyPI

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Development Status
- 4 - Beta
Environment
- Console
Intended Audience
- Science/Research
Operating System
- POSIX
Programming Language
- Python
- Python :: 3

Release history Release notifications | RSS feed

1.0.4

May 22, 2024

1.0.3

May 21, 2024

1.0.2

May 13, 2024

1.0.1

May 13, 2024

1.0.0

May 7, 2024

0.10.3

Apr 30, 2024

0.10.2

Apr 29, 2024

0.10.1

Apr 28, 2024

0.9.8

Apr 26, 2024

0.9.7

Apr 25, 2024

0.9.6

Apr 25, 2024

0.9.5

Apr 25, 2024

0.9.4

Apr 22, 2024

0.9.3

Apr 18, 2024

This version

0.9.2

Apr 17, 2024

0.9.1

Apr 16, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

moltx-0.9.2.tar.gz (42.2 kB view hashes)

Uploaded Apr 17, 2024 Source

Built Distribution

moltx-0.9.2-py3-none-any.whl (40.6 kB view hashes)

Uploaded Apr 17, 2024 Python 3

Hashes for moltx-0.9.2.tar.gz

Hashes for moltx-0.9.2.tar.gz
Algorithm	Hash digest
SHA256	`7419f0644cc3a89e5c78ce60bdb3391525502a368f3fac62180382fe5413f3e1`
MD5	`ba9fc913b644d5e9794bb6930190e98a`
BLAKE2b-256	`06bc69c67849c24b0f8b169ddfe43d0ebe3a7c52355b18967cd2470cc106a542`

Hashes for moltx-0.9.2-py3-none-any.whl

Hashes for moltx-0.9.2-py3-none-any.whl
Algorithm	Hash digest
SHA256	`1ea880a52c44d94cac3433857f27c9496bc911a08fd30ce217e8482f5bfbb8a3`
MD5	`4e66c9810fc7e869f7d08bd25652bba6`
BLAKE2b-256	`a87526b58528093a83ca05492a3d23e15ebb8123c40ec1a77544052c2161cec7`