Lib dengan tag "NLP"

negspacy

objek pipa spaCy untuk meniadakan konsep dalam teks.

Indic-BERT-v1

Indic-BERT-v1: Model Multibahasa berbasis BERT untuk 11 Bahasa Indic dan India-Inggris. Untuk Indic-BERT v2 terbaru, periksa: https://github.com/AI4Bharat/IndicBERT.

gpl

Metode adaptasi domain tanpa pengawasan yang kuat untuk pengambilan yang padat. Hanya membutuhkan korpus yang tidak berlabel dan menghasilkan peningkatan besar-besaran: "GPL: Pelabelan Pseudo Generatif untuk Adaptasi Domain Tanpa Pengawasan dari Pengambilan Padat" https://arxiv.org/abs/2112.07577 (oleh UKPLab).
  • 253
  • Python
  • Apache License 2.0

wikipron

Penambangan pengucapan multibahasa secara besar-besaran.
  • 252
  • Python
  • Apache License 2.0

lemmatization-lists

Daftar pasangan lemma-token yang dapat dibaca mesin dalam 23 bahasa..
  • 249
  • /DEVs
  • ODC Open Database License v1.0

zshot

Nol dan Beberapa tembakan bernama pengakuan entitas & hubungan.

kiri

Backprop memudahkan penggunaan, penyempurnaan, dan penerapan model ML yang canggih. (oleh kiri-ai).
  • 240
  • Python
  • GNU General Public License v3.0

tableQA

Alat AI untuk kueri bahasa alami pada data tabular..
  • 237
  • Python
  • GNU General Public License v3.0 only

spacyr

R bungkus ke spaCy NLP.
  • 234
  • R

deepsegment

Sebuah segmenter kalimat yang benar-benar berfungsi!.
  • 228
  • Python
  • GNU General Public License v3.0 only

razdel

Token berbasis aturan, segmentasi kalimat untuk bahasa Rusia.

concise-concepts

Repositori ini berisi pendekatan yang mudah dan intuitif untuk NER beberapa tembakan menggunakan ekspansi yang paling mirip melalui penyematan spaCy. Sekarang dengan penilaian entitas..

LemmInflect

Modul python untuk lemmatisasi dan infleksi bahasa Inggris..

bllip-parser

Parser reranking BLLIP (juga dikenal sebagai parser Charniak-Johnson, parser Charniak, parser reranking Brown) Lihat http://pypi.python.org/pypi/bllipparser/ untuk modul Python..

ocrpy

OCR, Arsip, Indeks, dan Pencarian: Implementasi kerangka kerja OCR agnostik..

laserembeddings

Penyematan kalimat multibahasa LASER sebagai paket pip.
  • 215
  • Python
  • BSD 3-clause "New" or "Revised"

emailGPT

antarmuka yang cepat dan mudah untuk menghasilkan email dengan ChatGPT.

edenai-apis

Eden AI: sederhanakan penggunaan dan penerapan teknologi AI dengan menyediakan API unik yang terhubung ke mesin AI terbaik.
  • 208
  • Python
  • Apache License 2.0

Multi-Type-TD-TSR

Mengekstraksi Tabel dari Gambar Dokumen menggunakan Multi-stage Pipeline untuk Deteksi Tabel dan Pengenalan Struktur Tabel:.

examples

Analisis data tidak terstruktur dengan Towhee, seperti pencarian gambar terbalik, pencarian video terbalik, klasifikasi audio, sistem tanya jawab, pencarian molekuler, dll. (oleh towhee-io).

markup

Alat anotasi dokumen berbasis web, didukung oleh GPT-4:rocket: (oleh samueldobbie).

wrench

KUNCI: PANJANG PENGAWASAN LEMAH.
  • 199
  • Python
  • Apache License 2.0

Cadmium

Pustaka Natural Language Processing (NLP) untuk Crystal.

gpt4-playground

Klon lingkungan ChatGPT dan Playground OpenAI untuk mengaktifkan percobaan dengan kunci API..

DKPro Core

Kumpulan komponen perangkat lunak untuk pemrosesan bahasa alami (NLP) berdasarkan kerangka kerja Apache UIMA..
  • 195
  • Java
  • GNU General Public License v3.0

gpt-j

API GPT-J untuk digunakan dengan python3 untuk menghasilkan teks, blog, kode, dan lainnya.

financial-news-dataset

Reuters dan Bloomberg.

cedille-ai

✒️ Cedille adalah model bahasa Prancis besar (6B), dirilis di bawah lisensi sumber terbuka.

konoha

🌿 Alat Pemroses Teks Jepang yang mudah digunakan, yang memungkinkan untuk mengganti tokenizer dengan sedikit perubahan kode..

quickadd

Mengurai ekspresi waktu dan tanggal bahasa alami dalam python (oleh Acreom).