รู้จำเอกสาร
(OCR, KIE, e-Forms)
ข้อเท็จจริงตรงไปตรงมา
เนื้อหานี้สรุปการทำ รู้จำเอกสาร ครบวงจร—OCR + ดึงข้อมูลสำคัญ ตาราง บาร์โค้ด/QR ลายเซ็น/ตราประทับ—ให้ ใช้งานได้จริง วัดผลได้ ปลอดภัย และตรวจสอบย้อนกลับได้
📄 คืออะไร
🔍 OCR
แปลงภาพ/PDF เป็นข้อความ
🎯 KIE
ดึงฟิลด์สำคัญ (เลขใบกำกับภาษี วันที่ ยอดรวม)
📊 โครงร่าง/ตาราง
จับฟอร์มและตารางรายการ
✅ ตรวจความถูกต้อง
กฎ/พจนานุกรม/เลขตรวจสอบ/ลายเซ็นดิจิทัล
🔗 อีเวนต์/API
ส่ง JSON โครงสร้างไปยัง ERP/CRM/ฐานข้อมูล
🎯 กรณีใช้งาน
📋 ใบกำกับภาษี/ใบเสร็จ/e-Tax
หัวกระดาษ + รายการ
🆔 บัตรประชาชน/พาสปอร์ต/ใบขับขี่
รูปหน้า/MRZ/บาร์โค้ด PDF417/QR
🏦 สลิปโอนเงิน & QR มาตรฐาน EMVCo
ถอดรหัส → ตรวจกับ API ธนาคาร → กระทบยอด
🚛 เอกสารโลจิสติกส์
B/L, packing list, เอกสารตู้/แชสซี
👥 งานบุคคล/กฎหมาย
ฟอร์ม, ใบรับรอง, สัญญา
🔧 เช็กลิสต์ซ่อมบำรุง/คุณภาพ
ลายมือ, ตราประทับ
📷 วิธีถ่าย/สแกนให้ได้ผล
🖨️ สแกนเนอร์
- • 300–400 dpi ปรับตั้งตรง
- • สแกนสองหน้า ใช้ PDF/A เมื่อจำเป็น
📱 มือถือ
- • วางราบ ไม่มีเงา/แสงสะท้อน
- • เติมเฟรมให้เต็ม เอียง ≤ 10–15°
- • ใช้ dewarp อัตโนมัติ
📸 กล้อง
- • ชัตเตอร์ 1/125–1/250 วินาที
- • แสงสม่ำเสมอ ใช้โพลารไรซ์เมื่อกระดาษมัน
📁 ไฟล์
- • ถ้าเป็นเอกสารดิจิทัล ให้ใช้ PDF ที่ฝังข้อความ
- • เก็บต้นฉบับเพื่อการตรวจสอบ
ประสิทธิภาพ
- ความแม่นยำ: 90-98%
- รองรับหลายภาษา
- ประมวลผลเร็ว
- รองรับรูปแบบไฟล์หลากหลาย
🔄 สายงานประมวลผล
🔧 สายงานประมวลผล
1-4. ประมวลผลเบื้องต้น
- • จำแนกประเภทเอกสาร
- • จับโครงร่าง: บล็อกข้อความ ตาราง โซนสำคัญ
- • OCR: ไทย/อังกฤษ เลข รูปแบบวันที่
- • KIE: ผสมกฎ/ML เข้าใจตำแหน่ง
5-7. ประมวลผลหลัง
- • ตรวจสอบ: ยอดรวม รูปแบบ ลายเซ็นดิจิทัล
- • ทำให้เป็นมาตรฐาน: สกุลเงิน วันที่ ที่อยู่
- • จัดเก็บ: JSON + ครอปหลักฐาน
📈 ตัวชี้วัดสำคัญ
📊 ตัวชี้วัดหลัก
- • OCR: อัตราผิดพลาดระดับตัวอักษร/คำ (CER/WER)
- • ฟิลด์: Precision/Recall/F1 ต่อฟิลด์
- • อัตรา Exact-Match สำหรับฟิลด์สำคัญ
- • ตาราง: ความแม่นยำการดึงเซลล์/บรรทัดรายการ
⚡ ประสิทธิภาพและธุรกิจ
- • ดีเลย์/ปริมาณงาน: ตั้งแต่รับไฟล์ถึงผลลัพธ์
- • หน้า/ชั่วโมง ความสามารถประมวลผล
- • KPI ธุรกิจ: เวลากระทบยอดที่ลดลง
- • งานผิดปกติต่อ 1k เอกสาร
🛡️ กันปลอมแปลง/พิสูจน์ความแท้
📱 ตรวจสอบ QR/บาร์โค้ด
- • ถอดรหัส → ตรวจกับผู้ออก/ธนาคาร
- • เทียบยอด/วันที่/เลขอ้างอิง
📄 ลายเซ็น PDF
- • ตรวจสายโซ่ใบรับรอง X.509
- • แฮช และสถานะเพิกถอน
👁️ สัญญาณปลอมแปลง
- • ฟอนต์ไม่สม่ำเสมอ
- • รอยต่อคัดลอก-วาง สำเนาคุณภาพต่ำ
🔍 ตรวจข้าม
- • ยอดรวมเทียบรายการ สูตร VAT
- • รหัสผู้ขาย รายการอนุญาต/ห้าม
🔒 ความเป็นส่วนตัว/กฎหมาย
🔐 ลด/ปิดบังข้อมูล
- • เก็บเฉพาะที่จำเป็น
- • ใช้ แฮช เมื่อทำได้
- • เบลอ PII ในไฟล์ส่งออก
📅 วันเก็บ
- • รูปต้นฉบับ: 30–90 วัน
- • โครงสร้างเก็บตามข้อกำหนด
🛡️ ความปลอดภัย
- • เข้ารหัส RBAC/MFA
- • บันทึกการเข้าถึง
- • ทำ DPIA ก่อนใช้งานจริง
🚀 รูปแบบติดตั้ง
🏭 เอดจ์/ในไซต์งาน
- • เอกสารอ่อนไหว
- • หน่วงต่ำ ทำงานออฟไลน์ได้
🖥️ เซิร์ฟเวอร์/คลัสเตอร์
- • ปริมาณมาก หลายไซต์
- • ต้องมี HA เข้ารหัส และตรวจสอบได้
🔄 ไฮบริด
- • เอดจ์คัดกรอง
- • ส่วนกลางตรวจ
- • รายงานบนคลาวด์
📋 ตัวอย่างผลลัพธ์
📄 ผลลัพธ์การประมวลผลเอกสาร
ตัวอย่างผลลัพธ์ JSON จากการประมวลผลใบกำกับภาษีไทย พร้อมรายการสินค้า การตรวจสอบ QR โค้ด และการตรวจสอบฟิลด์
📄 โครงสร้าง JSON Response
{
"doc_type": "invoice",
"confidence": 0.97,
"fields": {
"invoice_no": {
"value": "INV-2025-0173",
"conf": 0.98,
"bbox": [412, 96, 220, 28]
},
"date_iso": {"value": "2025-08-25", "conf": 0.95},
"supplier_tax_id": {
"value": "0105551234567",
"conf": 0.94,
"validated": true
},
"subtotal": {
"value": 125000.00,
"currency": "THB",
"conf": 0.99
},
"vat_amount": {
"value": 8750.00,
"conf": 0.99,
"checked_math": true
},
"total": {"value": 133750.00, "conf": 0.99}
},
"tables": [{
"name": "line_items",
"rows": [{
"desc": "แบริ่ง 6204",
"qty": 100,
"uom": "ชิ้น",
"price": 1250.00,
"amount": 125000.00
}]
}],
"barcodes": [{
"type": "QR",
"data": "...",
"verified": true
}],
"evidence": {
"page": 1,
"crops": {
"invoice_no": "...",
"total": "..."
}
}
}
🚨 สัญญาณเตือน
❌ สัญญาณเตือนการตลาด
- • โฆษณา "แม่น 100%"
- • อวด FPS เฉพาะโมเดล
- • ไม่มีตัวชี้วัดรายฟิลด์/ตาราง
⚠️ สัญญาณเตือนเทคนิค
- • เก็บภาพเต็มไม่มีกำหนด
- • ไม่มีการคุม PDPA/บันทึกการเข้าถึง
- • ไม่ตรวจความถูกต้อง
- • ไม่ใช้กฎธุรกิจ
🔗 การผสานกับ GaugeSnap
🎯 การประมวลผลเอกสารครบถ้วน
เอดจ์ OCR/KIE (ไทย+อังกฤษ) ดึงตาราง ตรวจตราประทับ/ลายเซ็น ผสานกับข้อมูลเซนเซอร์อุตสาหกรรมเพื่อการตรวจสอบครบถ้วน
🏦 ตรวจสอบทางการเงิน
- • ตรวจสลิปโอนเงิน: ถอด QR มาตรฐาน EMVCo
- • ตรวจกับ API ธนาคาร (OAuth2)
- • กระทบยอดยอด/วันที่/เลขอ้างอิง พร้อมสัญญาณกันปลอม
🏭 เอกสารอุตสาหกรรม
- • ใบสั่งงาน ฟอร์ม QA เอกสารลานตู้
- • จับคู่ เหตุการณ์ ANPR/รหัสตู้
- • ติดตามห่วงโซ่การควบคุมครบถ้วน
📊 API/แดชบอร์ด
- • การผสาน REST/MQTT
- • ตัวชี้วัดรายฟิลด์/ตาราง ดีเลย์
- • นโยบายเก็บข้อมูลและล็อกพร้อมตรวจตาม PDPA
🚀 วิธีเริ่มแบบความเสี่ยงต่ำ
1. เลือกประเภทเอกสารเดียว
กำหนด สคีมาฟิลด์ (ชื่อ/เรกซ์/หน่วย)
2. ส่งตัวอย่าง
100–300 ไฟล์ (สแกน + มือถือ; เคสดี/แย่)
3. ได้ผลเริ่มต้น
CER/WER, F1 รายฟิลด์, ความแม่นยำตาราง, ดีเลย์ พร้อม PoC ที่มีกฎตรวจสอบ และการจัดเก็บที่พร้อม PDPA