nlp

Welcome to londogard-nlp-toolkits, com.londogard:nlp!
This project is created to make NLP tools more accessible to the JVM world.

It includes a multitude of features, such as

Embeddings (Word & Sentence)
Tokenizers (Word, Char & Subword)
Stopwords, Word Frequencies & Stemming
Vectorizers & Encoders (TF-IDF, BM-25, OneHot, ...)
Classifiers (NaïveBayes, Logistic Regression w/ SGD & Transformers including HuggingFace)
Token Classifiers (Hidden Markov Chains & Transformers including HuggingFace)
Keyword Extraction

Packages

com.londogard.nlp.embeddings

In com.londogard:nlp there's multiple embeddings supported:

com.londogard.nlp.embeddings.sentence

NLP currently supports two types of sentence embeddings, namely:

com.londogard.nlp.keywords

com.londogard.nlp.meachinelearning

com.londogard.nlp.meachinelearning.datatypes

com.londogard.nlp.meachinelearning.encoders

com.londogard.nlp.meachinelearning.loss

com.londogard.nlp.meachinelearning.metrics

com.londogard.nlp.meachinelearning.native

com.londogard.nlp.meachinelearning.optimizer

com.londogard.nlp.meachinelearning.predictors

com.londogard.nlp.meachinelearning.predictors.classifiers

com.londogard.nlp.meachinelearning.predictors.regression

com.londogard.nlp.meachinelearning.predictors.sequence

com.londogard.nlp.meachinelearning.predictors.transformers

com.londogard.nlp.meachinelearning.predictors.transformers.translators

com.londogard.nlp.meachinelearning.regularization

com.londogard.nlp.meachinelearning.transformers

com.londogard.nlp.meachinelearning.vectorizer

com.londogard.nlp.meachinelearning.vectorizer.count

com.londogard.nlp.preprocessing

com.londogard.nlp.stemmer

com.londogard.nlp.stopwords

com.londogard.nlp.structures.trie

com.londogard.nlp.tokenizer

com.londogard.nlp.tokenizer.sentence

com.londogard.nlp.utils

com.londogard.nlp.utils.huggingface

com.londogard.nlp.wordfreq

The Word Frequencies are taken from wordfreq.py a library by LuminosoInsight and are hosted directly on the GitHub. The object looks as follows: