Vision-Language Models & Multimodal AI

โมเดลภาษา-วิทัศน์ & AI หลายรูปแบบ

Foundation Vision-Language Models

Large-scale Pre-trained Models

  • CLIP - Contrastive Language-Image Pre-training
  • ALIGN - Large-scale noisy image-text alignment
  • BLIP - Bootstrapping Language-Image Pre-training
  • BLIP-2 - Improved BLIP with Q-Former
  • LLaVA - Large Language and Vision Assistant

Multimodal Transformers

  • ViLT - Vision-and-Language Transformer
  • LXMERT - Learning cross-modality encoder
  • UNITER - Universal image-text representation
  • VILLA - Vision-and-language pre-training

Image Captioning & Description

Neural Image Captioning

  • Show and Tell - CNN + RNN architecture
  • Show, Attend and Tell - Attention mechanism
  • Bottom-Up Top-Down - Object-based attention
  • Transformer Captioning - Self-attention based

Dense Captioning

  • DenseCapNet - Dense captioning networks
  • Localize and Describe - Joint localization
  • Region-based Captioning - Object region descriptions

Visual Question Answering (VQA)

VQA Architectures

  • Neural Module Networks - Compositional reasoning
  • Bilinear Pooling - Feature fusion methods
  • Graph-based VQA - Scene graph reasoning
  • Memory Networks - External memory mechanisms

Advanced VQA

  • GQA - Visual reasoning with scene graphs
  • CLEVR - Compositional visual reasoning
  • TextVQA - Text-based visual question answering
  • VideoQA - Video question answering

Visual Grounding & Referring

Referring Expression Comprehension

  • MAttNet - Modular attention networks
  • CMN - Comprehension-guided referring
  • RefCOCO Series - Referring object datasets
  • UNITER-REC - UNITER for referring expression

Visual Grounding

  • Phrase Localization - การระบุตำแหน่งวลี
  • Weakly Supervised Grounding - การเรียนรู้แบบควบคุมอ่อน
  • Cross-modal Retrieval - การค้นหาข้ามโมดอล

Text-to-Image Generation

Generative Models

  • DALL-E - Text-to-image generation
  • DALL-E 2 - Improved image generation
  • Stable Diffusion - Latent diffusion models
  • Midjourney - Artistic image generation
  • Imagen - Google's text-to-image model

Controllable Generation

  • ControlNet - Conditional control of diffusion
  • InstructPix2Pix - Instruction-based editing
  • DreamBooth - Personalized generation
  • LoRA - Low-rank adaptation

Multimodal Understanding

Scene Understanding

  • Scene Graphs - Structured scene representation
  • Visual Relationships - Object relationship detection
  • Situation Recognition - Activity and context understanding
  • Visual Commonsense - Reasoning about visual scenes

Video Understanding

  • Video Captioning - การบรรยายวิดีโอ
  • Action Recognition - การรู้จำการกระทำ
  • Temporal Grounding - การระบุเวลาในวิดีโอ
  • Video Summarization - การสร้างสาระสำคัญวิดีโอ

การประยุกต์ใช้งาน

Education & Accessibility

  • Visual Assistance - ช่วยเหลือผู้พิการทางสายตา
  • Educational Tools - เครื่องมือการศึกษา
  • Language Learning - การเรียนรู้ภาษา
  • Content Accessibility - การเข้าถึงเนื้อหา

Content Creation & Media

  • Automated Journalism - การสร้างข่าวอัตโนมัติ
  • Social Media - การวิเคราะห์โซเชียลมีเดีย
  • Creative Design - การออกแบบสร้างสรรค์
  • Advertisement - การโฆษณาอัตโนมัติ

E-commerce & Retail

  • Product Search - การค้นหาสินค้าด้วยภาพ
  • Visual Shopping - การช้อปปิ้งด้วยภาพ
  • Recommendation Systems - ระบบแนะนำ
  • Inventory Management - การจัดการสินค้า

เทคนิคขั้นสูง

Cross-modal Learning

  • Self-supervised Learning - การเรียนรู้แบบควบคุมตนเอง
  • Contrastive Learning - การเรียนรู้แบบเปรียบเทียบ
  • Masked Language Modeling - โมเดลภาษาแบบปิดบัง
  • Image-Text Matching - การจับคู่ภาพ-ข้อความ

Few-shot & Zero-shot Learning

  • Few-shot VQA - VQA จากตัวอย่างน้อย
  • Zero-shot Classification - จำแนกแบบไม่มีตัวอย่าง
  • In-context Learning - การเรียนรู้ในบริบท
  • Prompt Engineering - การออกแบบคำสั่ง

การประเมินและเมตริก

  • BLEU/ROUGE - เมตริกสำหรับข้อความ
  • CIDEr/SPICE - เมตริกสำหรับ image captioning
  • VQA Accuracy - ความแม่นยำ VQA
  • Retrieval Metrics - เมตริกการค้นหา
  • Human Evaluation - การประเมินโดยมนุษย์