รู้จำเอกสาร
(OCR, KIE, e-Forms)

ข้อเท็จจริงตรงไปตรงมา

เนื้อหานี้สรุปการทำ รู้จำเอกสาร ครบวงจร—OCR + ดึงข้อมูลสำคัญ ตาราง บาร์โค้ด/QR ลายเซ็น/ตราประทับ—ให้ ใช้งานได้จริง วัดผลได้ ปลอดภัย และตรวจสอบย้อนกลับได้

📄 คืออะไร

🔍 OCR

แปลงภาพ/PDF เป็นข้อความ

🎯 KIE

ดึงฟิลด์สำคัญ (เลขใบกำกับภาษี วันที่ ยอดรวม)

📊 โครงร่าง/ตาราง

จับฟอร์มและตารางรายการ

✅ ตรวจความถูกต้อง

กฎ/พจนานุกรม/เลขตรวจสอบ/ลายเซ็นดิจิทัล

🔗 อีเวนต์/API

ส่ง JSON โครงสร้างไปยัง ERP/CRM/ฐานข้อมูล

🎯 กรณีใช้งาน

📋 ใบกำกับภาษี/ใบเสร็จ/e-Tax

หัวกระดาษ + รายการ

🆔 บัตรประชาชน/พาสปอร์ต/ใบขับขี่

รูปหน้า/MRZ/บาร์โค้ด PDF417/QR

🏦 สลิปโอนเงิน & QR มาตรฐาน EMVCo

ถอดรหัส → ตรวจกับ API ธนาคาร → กระทบยอด

🚛 เอกสารโลจิสติกส์

B/L, packing list, เอกสารตู้/แชสซี

👥 งานบุคคล/กฎหมาย

ฟอร์ม, ใบรับรอง, สัญญา

🔧 เช็กลิสต์ซ่อมบำรุง/คุณภาพ

ลายมือ, ตราประทับ

📷 วิธีถ่าย/สแกนให้ได้ผล

🖨️ สแกนเนอร์

  • • 300–400 dpi ปรับตั้งตรง
  • • สแกนสองหน้า ใช้ PDF/A เมื่อจำเป็น

📱 มือถือ

  • • วางราบ ไม่มีเงา/แสงสะท้อน
  • • เติมเฟรมให้เต็ม เอียง ≤ 10–15°
  • • ใช้ dewarp อัตโนมัติ

📸 กล้อง

  • • ชัตเตอร์ 1/125–1/250 วินาที
  • • แสงสม่ำเสมอ ใช้โพลารไรซ์เมื่อกระดาษมัน

📁 ไฟล์

  • • ถ้าเป็นเอกสารดิจิทัล ให้ใช้ PDF ที่ฝังข้อความ
  • • เก็บต้นฉบับเพื่อการตรวจสอบ

ประสิทธิภาพ

  • ความแม่นยำ: 90-98%
  • รองรับหลายภาษา
  • ประมวลผลเร็ว
  • รองรับรูปแบบไฟล์หลากหลาย

🔄 สายงานประมวลผล

🔧 สายงานประมวลผล

จำแนกประเภท จับโครงร่าง OCR KIE ตรวจสอบ ทำมาตรฐาน จัดเก็บ

1-4. ประมวลผลเบื้องต้น

  • จำแนกประเภทเอกสาร
  • จับโครงร่าง: บล็อกข้อความ ตาราง โซนสำคัญ
  • OCR: ไทย/อังกฤษ เลข รูปแบบวันที่
  • KIE: ผสมกฎ/ML เข้าใจตำแหน่ง

5-7. ประมวลผลหลัง

  • ตรวจสอบ: ยอดรวม รูปแบบ ลายเซ็นดิจิทัล
  • ทำให้เป็นมาตรฐาน: สกุลเงิน วันที่ ที่อยู่
  • จัดเก็บ: JSON + ครอปหลักฐาน

📈 ตัวชี้วัดสำคัญ

📊 ตัวชี้วัดหลัก

  • OCR: อัตราผิดพลาดระดับตัวอักษร/คำ (CER/WER)
  • ฟิลด์: Precision/Recall/F1 ต่อฟิลด์
  • อัตรา Exact-Match สำหรับฟิลด์สำคัญ
  • ตาราง: ความแม่นยำการดึงเซลล์/บรรทัดรายการ

⚡ ประสิทธิภาพและธุรกิจ

  • ดีเลย์/ปริมาณงาน: ตั้งแต่รับไฟล์ถึงผลลัพธ์
  • หน้า/ชั่วโมง ความสามารถประมวลผล
  • KPI ธุรกิจ: เวลากระทบยอดที่ลดลง
  • งานผิดปกติต่อ 1k เอกสาร

🛡️ กันปลอมแปลง/พิสูจน์ความแท้

📱 ตรวจสอบ QR/บาร์โค้ด

  • • ถอดรหัส → ตรวจกับผู้ออก/ธนาคาร
  • • เทียบยอด/วันที่/เลขอ้างอิง

📄 ลายเซ็น PDF

  • • ตรวจสายโซ่ใบรับรอง X.509
  • • แฮช และสถานะเพิกถอน

👁️ สัญญาณปลอมแปลง

  • • ฟอนต์ไม่สม่ำเสมอ
  • • รอยต่อคัดลอก-วาง สำเนาคุณภาพต่ำ

🔍 ตรวจข้าม

  • • ยอดรวมเทียบรายการ สูตร VAT
  • • รหัสผู้ขาย รายการอนุญาต/ห้าม

🔒 ความเป็นส่วนตัว/กฎหมาย

⚠️ ข้อมูลอ่อนไหว: เลขบัตร/ใบหน้า/บัญชีเป็นข้อมูลอ่อนไหวต้องจัดการพิเศษ

🔐 ลด/ปิดบังข้อมูล

  • • เก็บเฉพาะที่จำเป็น
  • • ใช้ แฮช เมื่อทำได้
  • • เบลอ PII ในไฟล์ส่งออก

📅 วันเก็บ

  • • รูปต้นฉบับ: 30–90 วัน
  • • โครงสร้างเก็บตามข้อกำหนด

🛡️ ความปลอดภัย

  • • เข้ารหัส RBAC/MFA
  • บันทึกการเข้าถึง
  • • ทำ DPIA ก่อนใช้งานจริง

🚀 รูปแบบติดตั้ง

🏭 เอดจ์/ในไซต์งาน

  • • เอกสารอ่อนไหว
  • • หน่วงต่ำ ทำงานออฟไลน์ได้

🖥️ เซิร์ฟเวอร์/คลัสเตอร์

  • • ปริมาณมาก หลายไซต์
  • • ต้องมี HA เข้ารหัส และตรวจสอบได้

🔄 ไฮบริด

  • • เอดจ์คัดกรอง
  • • ส่วนกลางตรวจ
  • • รายงานบนคลาวด์

📋 ตัวอย่างผลลัพธ์

📄 ผลลัพธ์การประมวลผลเอกสาร

ตัวอย่างผลลัพธ์ JSON จากการประมวลผลใบกำกับภาษีไทย พร้อมรายการสินค้า การตรวจสอบ QR โค้ด และการตรวจสอบฟิลด์

📄 โครงสร้าง JSON Response

{
  "doc_type": "invoice",
  "confidence": 0.97,
  "fields": {
    "invoice_no": {
      "value": "INV-2025-0173",
      "conf": 0.98,
      "bbox": [412, 96, 220, 28]
    },
    "date_iso": {"value": "2025-08-25", "conf": 0.95},
    "supplier_tax_id": {
      "value": "0105551234567",
      "conf": 0.94,
      "validated": true
    },
    "subtotal": {
      "value": 125000.00,
      "currency": "THB",
      "conf": 0.99
    },
    "vat_amount": {
      "value": 8750.00,
      "conf": 0.99,
      "checked_math": true
    },
    "total": {"value": 133750.00, "conf": 0.99}
  },
  "tables": [{
    "name": "line_items",
    "rows": [{
      "desc": "แบริ่ง 6204",
      "qty": 100,
      "uom": "ชิ้น",
      "price": 1250.00,
      "amount": 125000.00
    }]
  }],
  "barcodes": [{
    "type": "QR",
    "data": "...",
    "verified": true
  }],
  "evidence": {
    "page": 1,
    "crops": {
      "invoice_no": "...",
      "total": "..."
    }
  }
}

🚨 สัญญาณเตือน

❌ สัญญาณเตือนการตลาด

  • • โฆษณา "แม่น 100%"
  • • อวด FPS เฉพาะโมเดล
  • • ไม่มีตัวชี้วัดรายฟิลด์/ตาราง

⚠️ สัญญาณเตือนเทคนิค

  • • เก็บภาพเต็มไม่มีกำหนด
  • • ไม่มีการคุม PDPA/บันทึกการเข้าถึง
  • • ไม่ตรวจความถูกต้อง
  • • ไม่ใช้กฎธุรกิจ

🔗 การผสานกับ GaugeSnap

🎯 การประมวลผลเอกสารครบถ้วน

เอดจ์ OCR/KIE (ไทย+อังกฤษ) ดึงตาราง ตรวจตราประทับ/ลายเซ็น ผสานกับข้อมูลเซนเซอร์อุตสาหกรรมเพื่อการตรวจสอบครบถ้วน

🏦 ตรวจสอบทางการเงิน

  • • ตรวจสลิปโอนเงิน: ถอด QR มาตรฐาน EMVCo
  • • ตรวจกับ API ธนาคาร (OAuth2)
  • • กระทบยอดยอด/วันที่/เลขอ้างอิง พร้อมสัญญาณกันปลอม

🏭 เอกสารอุตสาหกรรม

  • • ใบสั่งงาน ฟอร์ม QA เอกสารลานตู้
  • • จับคู่ เหตุการณ์ ANPR/รหัสตู้
  • • ติดตามห่วงโซ่การควบคุมครบถ้วน

📊 API/แดชบอร์ด

  • • การผสาน REST/MQTT
  • • ตัวชี้วัดรายฟิลด์/ตาราง ดีเลย์
  • • นโยบายเก็บข้อมูลและล็อกพร้อมตรวจตาม PDPA

🚀 วิธีเริ่มแบบความเสี่ยงต่ำ

1. เลือกประเภทเอกสารเดียว

กำหนด สคีมาฟิลด์ (ชื่อ/เรกซ์/หน่วย)

2. ส่งตัวอย่าง

100–300 ไฟล์ (สแกน + มือถือ; เคสดี/แย่)

3. ได้ผลเริ่มต้น

CER/WER, F1 รายฟิลด์, ความแม่นยำตาราง, ดีเลย์ พร้อม PoC ที่มีกฎตรวจสอบ และการจัดเก็บที่พร้อม PDPA

💡 หลักการ: พิสูจน์ด้วยตัวชี้วัดรายฟิลด์และยอดที่กระทบตรง ก่อนขยายผล