রোডম্যাপ
PHASE 7 · অধ্যায় 32

লার্জ ল্যাঙ্গুয়েজ মডেল

Large Language Models

LLM কি, কিভাবে কাজ করে, scaling laws।

ভূমিকা

GPT-3 — 175 billion parameter। GPT-4 — কেউ জানে না কত, কিন্তু trillion এর কাছাকাছি। LLaMA, Claude, Gemini — সব massive scale এর model। এই scale ই unlock করেছে এমন capability যা ছোট model দেখায়নি — reasoning, code, multi-step planning। Large Language Model — AI revolution এর backbone।

ধারণা

LLM হলো এমন transformer-based language model যার parameter count billions/trillions এ — massive corpus (trillion+ token) এ pretrain করা। Key concepts: Scaling laws (Kaplan/Chinchilla — parameter, data, compute এর সঠিক balance), Emergent ability (নির্দিষ্ট scale এর পর হঠাৎ নতুন skill), In-context learning (parameter update ছাড়াই few-shot example দিয়ে শেখা), Instruction tuning + RLHF (helpful + harmless বানানো)।

সহজ ব্যাখ্যা

ভাবুন একটা ছাত্র — primary তে শুধু পড়তে পারে, high school এ essay লিখতে পারে, university তে research করে। Scale (knowledge + experience) বাড়ার সাথে capability emerge করে। LLM ও তেমন — 1B parameter এ basic language, 10B এ reasoning, 100B+ এ chain-of-thought, code, multi-language fluency। Phase transition এর মত — হঠাৎ নতুন capability।

বাস্তব ব্যবহার

  • ChatGPT, Claude, Gemini — direct LLM product।
  • GitHub Copilot, Cursor — code-tuned LLM।
  • Notion AI, Grammarly — writing assistant।
  • Customer support automation — Intercom, Zendesk।
  • Lovable, Bolt, v0 — code generation এর LLM।

ধাপে ধাপে বিশ্লেষণ

1
Step 1 — Model size choose
Task complexity + budget — 7B local, 70B server, GPT-4 API।
2
Step 2 — Access method
API (OpenAI/Anthropic/Gemini) বা local (Ollama/llama.cpp)।
3
Step 3 — Prompt engineer
System + user message, clear instruction।
4
Step 4 — Parameter tune
Temperature, max_tokens, top_p।
5
Step 5 — Evaluate
Accuracy, latency, cost, safety — production metric।

Python কোড

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://ai.gateway.lovable.dev/v1",
    api_key=os.environ["LOVABLE_API_KEY"],
)

messages = [
    {"role": "system", "content": "You are a concise NLP tutor. Explain in 2 sentences."},
    {"role": "user", "content": "What is the difference between BERT and GPT?"},
]

response = client.chat.completions.create(
    model="google/gemini-2.5-flash",
    messages=messages,
    temperature=0.4,
    max_tokens=200,
)

print(response.choices[0].message.content)
print(f"\nTokens used: {response.usage.total_tokens}")
ব্যাখ্যা

OpenAI-compatible client দিয়ে Lovable AI Gateway তে call। system message bot এর personality set করে, user message actual question। temperature 0.4 মানে balanced (creative না, deterministic ও না)। response এ message + token usage দুটোই।

সাধারণ ভুল

  • Closed model এ sensitive data পাঠানো — privacy risk।
  • Token cost না track করা — production এ bill explode।
  • Hallucination ভুলে যাওয়া — LLM confidently ভুল উত্তর দিতে পারে।
  • Context length unlimited ভাবা — প্রতিটা model এর হার্ড limit আছে।

অনুশীলন

  1. একই prompt কে 3টা different model (Gemini, GPT-4, Claude) এ test।
  2. Temperature 0, 0.7, 1.5 — quality difference observe।
  3. Token counting tool (tiktoken) ব্যবহার করুন।
  4. Streaming response implement করুন (stream=True)।

ছোট প্রজেক্ট

LLM Playground CLI

একটা CLI tool যা model name, system prompt, temperature নেয় এবং user এর সাথে multi-turn conversation চালায়। Token usage, latency, cost estimate display করে।

সারাংশ

  • LLM = billion+ parameter transformer।
  • Scale → emergent ability (reasoning, code, multilingual)।
  • Pretrain → Instruction tune → RLHF — modern pipeline।
  • API (closed) vs Open weights (LLaMA, Mistral) — tradeoff।
  • AI revolution এর engine।