Kevin's Tech Blog

Exploring LLM, AI, RAG, .NET, Python, and Cloud

從 BM25 到 Corrective RAG：一篇 Text + Table benchmark 的精讀筆記

arXiv:2604.01733 在 T²-RAGBench 23,088 筆財務 QA 上 benchmark 九種檢索策略。本文精讀重點：為什麼 Hybrid + Rerank R@5=0.816 領先 Hybrid RRF 0.695、為什麼 BM25 在金融文件上贏過 dense embedding、以及 CRAG 為何意外輸給單純 hybrid fusion。

12 min read · 2026

RAG Pipeline Eval-Driven Tuning：Threshold Sweep、Progressive Fallback 與 Date Hint 的實證收斂

承接 Production-Ready RAG Pipeline 留下的三個 open item — confidence threshold 0.6 沒有數據背書、soft fallback 只是二元切換、intent classifier 抓不到「無時間詞但意圖時間敏感」— 用 21-value threshold sweep、四層 progressive fallback 與 date_hint_days schema 把三個 magic number 變成可驗證、可觀察、可回歸的 pipeline 行為

11 min read · 2026

Production-Ready RAG Pipeline：Intent Routing + Temporal-Aware Retrieval 完整實作

針對時序敏感、多元 intent 的 production RAG 場景，提出 pre-RAG intent classification、三層 temporal-aware retrieval (query cleaning + date filter + recency rerank) 與 eval-driven confidence calibration 的完整 pipeline 設計，含具體 recency weight 表、soft fallback 策略與 magic number 的可驗證路徑

12 min read · 2026

FAQ 知識庫的 Hybrid Search RAG Pipeline 實戰

以 BGE-M3 Dense + Sparse TF 雙向量、Qdrant Named Vectors、RRF Fusion 打造 FAQ Hybrid Search，搭配 Query Expansion、Confidence Re-ranking 與 Redis Cache Warming 的完整實戰指南

8 min read · 2026

GraphRAG 框架深度比較：Graphiti vs Neo4j vs T-GRAG

從 Temporal 感知、Embedding 換模成本、Schema 遷移等 9 個維度，深度評比 Graphiti、Neo4j GraphRAG 與 T-GRAG，為長期 RAG 基底選型提供實戰決策依據

8 min read · 2026

/yt2pdf 全解析：YouTube 影片 → 雙語 PDF 摘要的 6 階段自動化 Pipeline

從 yt-dlp 字幕擷取、Whisper 語音辨識、AI 摘要生成到 headless Chrome PDF 輸出與 B2 雲端上傳，拆解 /yt2pdf 的完整 6 階段 Pipeline

8 min read · 2026

Claude Code Agent 架構深度拆解：8 個可複用的 Production 設計模式

從 1,902 個 TypeScript 檔案中提煉出 8 個可直接採用的 Agent 架構模式 — Tool Pipeline、Side-Query、Coordinator/Worker、Hook System、Context Compaction

8 min read · 2026

本地 Agent Swarm 框架全解析：從架構比較到簡單實作

比較主流本地 Agent Swarm 框架（CrewAI、AutoGen、LangGraph、smolagents），並用 smolagents 實作一個最小化的雙 Agent 協作範例

8 min read · 2026

IoT 百萬設備架構選型 Part 1：核心架構與技術選型

Phase 1 核心架構：EMQX Rule Engine + TimescaleDB + FastAPI + BFF，含三層儲存、成本估算、AWS/GCP 對照

6 min read · 2026

Claude Code Channel Plugin 開發實戰：Telegram Inline Buttons

從 Telegram inline buttons 到 plugin cache 覆蓋問題，記錄嘗試 6 種方案最終用 cache patching 解決的完整過程

7 min read · 2026

深入解析 Claude Code 的 Ralph Loop Stop Hook

拆解 Ralph Loop Stop Hook 的運作機制 — 讓 AI Agent 自主迭代的關鍵技術

9 min read · 2026

LLM 整合 RAG 技術的核心挑戰與突破方向

深入分析 2026 年 RAG 技術面臨的六大挑戰與四大突破解決方案

6 min read · 2026

一行 /handoff：把 E2E 跑完、截圖、組 HTML、draft email 一路串到 reviewer 信箱

Claude Code skill 怎麼把 E2E 測試、截圖、HTML 報告、Microsoft Graph draft email 五個步驟封裝成一個 slash command；進階版 /walkthrough skill 再加 edge-tts + ffmpeg 直接生出帶字幕的導覽影片。重點不在工具，在「把異質 toolchain 攤平成一個動詞」這個 pattern。

8 min read · May 27, 2026

2026 · claude-code skills automation playwright e2e testing devops ai
DGX Spark + Ray Serve + vLLM：拿 6.7× TTFT、4.2× decode 的 tuning playbook

兩台 NVIDIA DGX Spark (GB10) 撐 30+ agent 串流，Ray Serve LLM 強制一機一模型反而促成簡潔架構；Tier-1 engine_kwargs 拿 6.7× TTFT、2.76× throughput @ c=16，Tier-2 dense→MoE 拿 4.2× decode speedup。

8 min read · May 10, 2026

2026 · llm inference vllm ray-serve gpu performance ai infrastructure
Hybrid RAG vs LLM-Wiki：把 Karpathy 的概念拉去做 13 題 A/B 評測

Karpathy 在 2026 年初提出的 LLM Wiki — 讓 LLM 把 raw sources 預先合成成可累積的 markdown 知識庫 — 是個吸引人的概念。把它跟 Hybrid RAG (BM25 + dense + RRF) 在同一個 60 篇知識庫、13 題 A/B 上對照後，硬數字是 accuracy 13/13 vs 12/13、tokens ×9.3、p50 latency ×2.5、LLM calls 2 vs 4。Wiki 的 single failure 不是輸幾個百分點，是跨 tenant 資料污染：把另一個 tenant 的 policy 高 confidence 答給使用者。這篇講三個 failure mode，並提醒在全面採用 LLM-Wiki 之前，先把現有 Hybrid 該有的 reranker / contextual retrieval / tenant filter 補齊。

10 min read · May 06, 2026

2026 · rag llm evaluation knowledge-base performance ai
LLM 多任務輸出：把 temporal date-range 解析合併進 intent classifier

Regex 寫死處理「最近 / 下次 / 上週」效果不佳，額外開一次 LLM call 又抬高 latency 與 token 成本；正解是把 date-range 解析與 vagueness 標註合併進既有的 intent classifier output schema — 同一次 LLM call 同時產出 intent label 與 date_range，零增量 round-trip。

10 min read · April 29, 2026

2026 · rag llm intent-classification prompt-engineering temporal performance ai
從 BM25 到 Corrective RAG：一篇 Text + Table benchmark 的精讀筆記

arXiv:2604.01733 在 T²-RAGBench 23,088 筆財務 QA 上 benchmark 九種檢索策略。本文精讀重點：為什麼 Hybrid + Rerank R@5=0.816 領先 Hybrid RRF 0.695、為什麼 BM25 在金融文件上贏過 dense embedding、以及 CRAG 為何意外輸給單純 hybrid fusion。

12 min read · April 27, 2026

2026 · rag retrieval bm25 corrective-rag reranking evaluation paper-review ai

Kevin's Tech Blog

Exploring LLM, AI, RAG, .NET, Python, and Cloud

從 BM25 到 Corrective RAG：一篇 Text + Table benchmark 的精讀筆記

RAG Pipeline Eval-Driven Tuning：Threshold Sweep、Progressive Fallback 與 Date Hint 的實證收斂

Production-Ready RAG Pipeline：Intent Routing + Temporal-Aware Retrieval 完整實作

FAQ 知識庫的 Hybrid Search RAG Pipeline 實戰

GraphRAG 框架深度比較：Graphiti vs Neo4j vs T-GRAG

/yt2pdf 全解析：YouTube 影片 → 雙語 PDF 摘要的 6 階段自動化 Pipeline

Claude Code Agent 架構深度拆解：8 個可複用的 Production 設計模式

本地 Agent Swarm 框架全解析：從架構比較到簡單實作

IoT 百萬設備架構選型 Part 1：核心架構與技術選型

Claude Code Channel Plugin 開發實戰：Telegram Inline Buttons

深入解析 Claude Code 的 Ralph Loop Stop Hook

LLM 整合 RAG 技術的核心挑戰與突破方向

一行 /handoff：把 E2E 跑完、截圖、組 HTML、draft email 一路串到 reviewer 信箱

DGX Spark + Ray Serve + vLLM：拿 6.7× TTFT、4.2× decode 的 tuning playbook

Hybrid RAG vs LLM-Wiki：把 Karpathy 的概念拉去做 13 題 A/B 評測

LLM 多任務輸出：把 temporal date-range 解析合併進 intent classifier

從 BM25 到 Corrective RAG：一篇 Text + Table benchmark 的精讀筆記