Vision-Language Models & Multimodal AI
โมเดลภาษา-วิทัศน์ & AI หลายรูปแบบ
Foundation Vision-Language Models
Large-scale Pre-trained Models
- CLIP - Contrastive Language-Image Pre-training
- ALIGN - Large-scale noisy image-text alignment
- BLIP - Bootstrapping Language-Image Pre-training
- BLIP-2 - Improved BLIP with Q-Former
- LLaVA - Large Language and Vision Assistant
Multimodal Transformers
- ViLT - Vision-and-Language Transformer
- LXMERT - Learning cross-modality encoder
- UNITER - Universal image-text representation
- VILLA - Vision-and-language pre-training
Image Captioning & Description
Neural Image Captioning
- Show and Tell - CNN + RNN architecture
- Show, Attend and Tell - Attention mechanism
- Bottom-Up Top-Down - Object-based attention
- Transformer Captioning - Self-attention based
Dense Captioning
- DenseCapNet - Dense captioning networks
- Localize and Describe - Joint localization
- Region-based Captioning - Object region descriptions
Visual Question Answering (VQA)
VQA Architectures
- Neural Module Networks - Compositional reasoning
- Bilinear Pooling - Feature fusion methods
- Graph-based VQA - Scene graph reasoning
- Memory Networks - External memory mechanisms
Advanced VQA
- GQA - Visual reasoning with scene graphs
- CLEVR - Compositional visual reasoning
- TextVQA - Text-based visual question answering
- VideoQA - Video question answering
Visual Grounding & Referring
Referring Expression Comprehension
- MAttNet - Modular attention networks
- CMN - Comprehension-guided referring
- RefCOCO Series - Referring object datasets
- UNITER-REC - UNITER for referring expression
Visual Grounding
- Phrase Localization - การระบุตำแหน่งวลี
- Weakly Supervised Grounding - การเรียนรู้แบบควบคุมอ่อน
- Cross-modal Retrieval - การค้นหาข้ามโมดอล
Text-to-Image Generation
Generative Models
- DALL-E - Text-to-image generation
- DALL-E 2 - Improved image generation
- Stable Diffusion - Latent diffusion models
- Midjourney - Artistic image generation
- Imagen - Google's text-to-image model
Controllable Generation
- ControlNet - Conditional control of diffusion
- InstructPix2Pix - Instruction-based editing
- DreamBooth - Personalized generation
- LoRA - Low-rank adaptation
Multimodal Understanding
Scene Understanding
- Scene Graphs - Structured scene representation
- Visual Relationships - Object relationship detection
- Situation Recognition - Activity and context understanding
- Visual Commonsense - Reasoning about visual scenes
Video Understanding
- Video Captioning - การบรรยายวิดีโอ
- Action Recognition - การรู้จำการกระทำ
- Temporal Grounding - การระบุเวลาในวิดีโอ
- Video Summarization - การสร้างสาระสำคัญวิดีโอ
การประยุกต์ใช้งาน
Education & Accessibility
- Visual Assistance - ช่วยเหลือผู้พิการทางสายตา
- Educational Tools - เครื่องมือการศึกษา
- Language Learning - การเรียนรู้ภาษา
- Content Accessibility - การเข้าถึงเนื้อหา
Content Creation & Media
- Automated Journalism - การสร้างข่าวอัตโนมัติ
- Social Media - การวิเคราะห์โซเชียลมีเดีย
- Creative Design - การออกแบบสร้างสรรค์
- Advertisement - การโฆษณาอัตโนมัติ
E-commerce & Retail
- Product Search - การค้นหาสินค้าด้วยภาพ
- Visual Shopping - การช้อปปิ้งด้วยภาพ
- Recommendation Systems - ระบบแนะนำ
- Inventory Management - การจัดการสินค้า
เทคนิคขั้นสูง
Cross-modal Learning
- Self-supervised Learning - การเรียนรู้แบบควบคุมตนเอง
- Contrastive Learning - การเรียนรู้แบบเปรียบเทียบ
- Masked Language Modeling - โมเดลภาษาแบบปิดบัง
- Image-Text Matching - การจับคู่ภาพ-ข้อความ
Few-shot & Zero-shot Learning
- Few-shot VQA - VQA จากตัวอย่างน้อย
- Zero-shot Classification - จำแนกแบบไม่มีตัวอย่าง
- In-context Learning - การเรียนรู้ในบริบท
- Prompt Engineering - การออกแบบคำสั่ง
การประเมินและเมตริก
- BLEU/ROUGE - เมตริกสำหรับข้อความ
- CIDEr/SPICE - เมตริกสำหรับ image captioning
- VQA Accuracy - ความแม่นยำ VQA
- Retrieval Metrics - เมตริกการค้นหา
- Human Evaluation - การประเมินโดยมนุษย์