Document AI & Knowledge Information Extraction
AI เอกสาร & การสกัดข้อมูลความรู้
Optical Character Recognition (OCR)
Traditional OCR
- Tesseract - Open-source OCR engine
- ABBYY FineReader - Commercial OCR
- EasyOCR - Deep learning-based OCR
- PaddleOCR - Multilingual OCR toolkit
Scene Text Recognition
- CRNN - CNN + RNN architecture
- ASTER - Attentional scene text recognizer
- TrOCR - Transformer-based OCR
- TextSnake - Flexible text detection
Document Layout Analysis
Layout Detection
- LayoutLM - Multimodal pre-training
- DocFormer - Document understanding transformer
- DiT - Document image transformer
- YOLO-Document - Object detection for documents
Table Detection & Recognition
- TableNet - Table detection in images
- TATR - Table structure recognition
- PubTables-1M - Large-scale table dataset
- CascadeTabNet - End-to-end table recognition
Information Extraction
Named Entity Recognition (NER)
- SpaCy NER - Industrial-strength NLP
- BERT-NER - BERT-based entity recognition
- BiLSTM-CRF - Sequential labeling
- Flair - Contextual string embeddings
Relation Extraction
- OpenIE - Open information extraction
- Stanford CoreNLP - Relation extraction
- SpERT - Span-based entity and relation transformer
- REBEL - Relation extraction by end-to-end language
Document Understanding
Form Understanding
- FormNet - Structural encoding for forms
- PICK - Graph-based key information extraction
- BROS - BERT relying on spatiality
- StrucTexT - Structured text understanding
Receipt & Invoice Processing
- CORD - Consolidated receipt dataset
- LayoutLMv3 - Multimodal pre-training
- Donut - Document understanding transformer
- UDOP - Unified document pre-training
Multi-language Support
Thai Document Processing
- Thai OCR - การรู้จำอักขระไทย
- PyThaiNLP - Thai natural language processing
- Thai Word Segmentation - การตัดคำภาษาไทย
- Thai Named Entity - การระบุนามสมัญไทย
Multilingual Models
- mBERT - Multilingual BERT
- XLM-R - Cross-lingual language model
- mT5 - Multilingual Text-to-Text Transfer
- CANINE - Character-level multilingual
การประยุกต์ใช้งาน
Business Applications
- Invoice Processing - ประมวลผลใบแจ้งหนี้
- Contract Analysis - วิเคราะห์สัญญา
- Compliance Checking - ตรวจสอบการปฏิบัติตาม
- Document Classification - จำแนกประเภทเอกสาร
Government & Legal
- Legal Document Analysis - วิเคราะห์เอกสารกฎหมาย
- Regulatory Compliance - การปฏิบัติตามกฎระเบียบ
- Case Law Research - ค้นคว้าคดีก่อนหน้า
- Patent Analysis - วิเคราะห์สิทธิบัตร
เทคนิคขั้นสูง
- Few-shot Learning - การเรียนรู้จากตัวอย่างน้อย
- Zero-shot Classification - จำแนกแบบไม่มีตัวอย่าง
- Active Learning - การเรียนรู้แบบมีส่วนร่วม
- Human-in-the-loop - การร่วมมือระหว่างคนกับ AI
- Confidence Estimation - การประมาณความน่าเชื่อถือ