Lib dengan tag "NLP"
Indic-BERT-v1
Indic-BERT-v1: Model Multibahasa berbasis BERT untuk 11 Bahasa Indic dan India-Inggris. Untuk Indic-BERT v2 terbaru, periksa: https://github.com/AI4Bharat/IndicBERT.
- 255
- Python
- MIT
gpl
Metode adaptasi domain tanpa pengawasan yang kuat untuk pengambilan yang padat. Hanya membutuhkan korpus yang tidak berlabel dan menghasilkan peningkatan besar-besaran: "GPL: Pelabelan Pseudo Generatif untuk Adaptasi Domain Tanpa Pengawasan dari Pengambilan Padat" https://arxiv.org/abs/2112.07577 (oleh UKPLab).
- 253
- Python
- Apache License 2.0
lemmatization-lists
Daftar pasangan lemma-token yang dapat dibaca mesin dalam 23 bahasa..
- 249
- /DEVs
- ODC Open Database License v1.0
deepsegment
Sebuah segmenter kalimat yang benar-benar berfungsi!.
- 228
- Python
- GNU General Public License v3.0 only
concise-concepts
Repositori ini berisi pendekatan yang mudah dan intuitif untuk NER beberapa tembakan menggunakan ekspansi yang paling mirip melalui penyematan spaCy. Sekarang dengan penilaian entitas..
- 226
- Python
- MIT
bllip-parser
Parser reranking BLLIP (juga dikenal sebagai parser Charniak-Johnson, parser Charniak, parser reranking Brown) Lihat http://pypi.python.org/pypi/bllipparser/ untuk modul Python..
- 219
- GAP
ocrpy
OCR, Arsip, Indeks, dan Pencarian: Implementasi kerangka kerja OCR agnostik..
- 217
- Jupyter Notebook
- MIT
laserembeddings
Penyematan kalimat multibahasa LASER sebagai paket pip.
- 215
- Python
- BSD 3-clause "New" or "Revised"
edenai-apis
Eden AI: sederhanakan penggunaan dan penerapan teknologi AI dengan menyediakan API unik yang terhubung ke mesin AI terbaik.
- 208
- Python
- Apache License 2.0
Multi-Type-TD-TSR
Mengekstraksi Tabel dari Gambar Dokumen menggunakan Multi-stage Pipeline untuk Deteksi Tabel dan Pengenalan Struktur Tabel:.
- 208
- Jupyter Notebook
- MIT
examples
Analisis data tidak terstruktur dengan Towhee, seperti pencarian gambar terbalik, pencarian video terbalik, klasifikasi audio, sistem tanya jawab, pencarian molekuler, dll. (oleh towhee-io).
- 207
- Jupyter Notebook
- Apache License 2.0
markup
Alat anotasi dokumen berbasis web, didukung oleh GPT-4:rocket: (oleh samueldobbie).
- 201
- TypeScript
- MIT
gpt4-playground
Klon lingkungan ChatGPT dan Playground OpenAI untuk mengaktifkan percobaan dengan kunci API..
- 197
- TypeScript
- MIT
DKPro Core
Kumpulan komponen perangkat lunak untuk pemrosesan bahasa alami (NLP) berdasarkan kerangka kerja Apache UIMA..
- 195
- Java
- GNU General Public License v3.0
cedille-ai
✒️ Cedille adalah model bahasa Prancis besar (6B), dirilis di bawah lisensi sumber terbuka.
- 193
- /DEVs
- MIT