রোডম্যাপ
PHASE 10 · অধ্যায় 46

গবেষণাপত্র পড়া

Reading Research Papers

arXiv থেকে paper কিভাবে পড়তে হয়।

ভূমিকা

Transformers, BERT, GPT — এই সব revolutionary idea কোথা থেকে আসলো? Research paper থেকে। যদি আপনি শুধু library use করেন কিন্তু paper না পড়েন, আপনি সবসময় ১ বছর পিছনে থাকবেন। SOTA (State-Of-The-Art) ধরতে হলে paper পড়া শিখতে হবে।

ধারণা

Research Paper Reading একটা skill। প্রতিদিন arXiv এ শত শত NLP paper publish হয়। সব পড়া অসম্ভব — তাই strategic reading: Abstract → Figures → Conclusion → Method → Experiments। SOTA models track করতে Papers With Code, Hugging Face Papers, এবং Twitter/X এর AI community follow করতে হয়।

সহজ ব্যাখ্যা

একটা paper হলো scientist দের গবেষণার সারাংশ — তারা কী problem solve করল, কীভাবে করল, কতটা ভালো হলো। আপনি যখন paper পড়েন, আপনি actually সেই scientist এর mind এ ঢুকছেন। প্রথম পড়ায় ৩০% বুঝবেন — এটা স্বাভাবিক। ৩-৫ বার পড়লে clear হয়।

বাস্তব ব্যবহার

  • "Attention Is All You Need" (2017) — পুরো NLP industry বদলে দিল।
  • BERT paper (2018) — Google Search উন্নত করল।
  • GPT-3 paper (2020) — LLM era শুরু হলো।
  • LLaMA paper (2023) — open-source LLM movement।
  • Papers With Code — SOTA benchmark track করে।

ধাপে ধাপে বিশ্লেষণ

1
Step 1 — Source
arXiv.org, Papers With Code, ACL Anthology, Hugging Face Papers থেকে paper খুঁজুন।
2
Step 2 — First Pass
Title, Abstract, Figures, Conclusion পড়ুন (১০ মিনিট)। বুঝুন paper আসলে কী claim করছে।
3
Step 3 — Second Pass
Introduction, Method, Results detail এ পড়ুন। Equation skip করতে পারেন।
4
Step 4 — Third Pass
Math, proof, ablation study পড়ুন। নিজে implement করার চেষ্টা করুন।
5
Step 5 — Reproduce
GitHub এ code আছে কিনা দেখুন। Colab এ run করুন। Hands-on understanding।
6
Step 6 — Track SOTA
Papers With Code এ task-wise leaderboard দেখুন — GLUE, SQuAD, MMLU।

Python কোড

# Paper reading workflow — automate paper discovery
import arxiv
import requests
from datetime import datetime, timedelta

# Search recent NLP papers on arXiv
search = arxiv.Search(
    query="large language model OR transformer OR NLP",
    max_results=10,
    sort_by=arxiv.SortCriterion.SubmittedDate,
    sort_order=arxiv.SortOrder.Descending,
)

print("📚 Latest NLP Papers (last 24h):\n")
for result in search.results():
    if (datetime.now(result.published.tzinfo) - result.published) < timedelta(days=1):
        print(f"📄 {result.title}")
        print(f"   Authors: {', '.join(a.name for a in result.authors[:3])}")
        print(f"   Abstract: {result.summary[:200]}...")
        print(f"   PDF: {result.pdf_url}\n")

# Track SOTA via Papers With Code API
pwc_url = "https://paperswithcode.com/api/v1/tasks/question-answering/"
response = requests.get(pwc_url)
data = response.json()
print(f"\n🏆 SOTA Task: {data.get('name')}")
print(f"   Description: {data.get('description', '')[:200]}")

# Reading template — three-pass method
def paper_notes(title):
    return {
        "title": title,
        "pass_1": {
            "problem": "?",
            "contribution": "?",
            "results": "?",
        },
        "pass_2": {
            "method": "?",
            "architecture": "?",
            "dataset": "?",
        },
        "pass_3": {
            "math_understood": False,
            "reproduced": False,
            "limitations": "?",
        },
    }

notes = paper_notes("Attention Is All You Need")
print("\n📝 Note Template:", notes)
ব্যাখ্যা

এই code arXiv API দিয়ে latest NLP paper search করে — শেষ ২৪ ঘন্টার publications। Papers With Code API দিয়ে SOTA task track করে। সবশেষে three-pass reading method এর জন্য একটা structured note template দিচ্ছে — pass 1 (overview), pass 2 (method), pass 3 (deep dive)।

সাধারণ ভুল

  • প্রথম পড়ায় সব বোঝার চেষ্টা — frustration।
  • Math দেখে paper close — abstract level intuition যথেষ্ট প্রথমে।
  • শুধু hype paper পড়া — fundamental classic skip।
  • Reproduce না করা — passive reading থেকে retention কম।

অনুশীলন

  1. "Attention Is All You Need" paper download করে three-pass method এ পড়ুন।
  2. Papers With Code এ GLUE leaderboard দেখুন — top 3 model এর paper read।
  3. Twitter/X এ @arxiv_org, @huggingface follow করুন।
  4. Notion/Obsidian এ paper notes database বানান।

ছোট প্রজেক্ট

Personal Paper Tracker

একটা Python script যা প্রতিদিন arXiv থেকে আপনার interest topic এর নতুন paper fetch করে, Notion/Markdown এ save করে, এবং weekly email digest পাঠায়। GitHub Actions দিয়ে scheduled run।

সারাংশ

  • Research paper reading = SOTA তে থাকার একমাত্র উপায়।
  • Three-pass method: overview → method → deep dive।
  • arXiv, Papers With Code, HF Papers — daily sources।
  • Reproduce করলে real understanding আসে।
  • Classic papers (Attention, BERT, GPT) অবশ্যই পড়ুন।