文章爬取與產線運作邏輯

系統架構總覽

本系統是一套自動化的中古車內容產線，從資料爬取、分類處理到文章草稿生成，全程由排程驅動。目標是為 abc 好車網產出符合 GEO（Generative Engine Optimization）的高品質文章。

技術堆疊：Python + PostgreSQL + RSS 爬蟲 + 規則引擎分類 + 模板化草稿生成
排程方式：Zeabur 部署，每日 06:00 自動執行 run-daily 排程

完整流程

1品牌與關鍵字種子

系統預載 abc 好車網的品牌資料庫（含品牌代號、刊登量、優先排名），並根據品牌 × 車型 × 主題自動產生關鍵字候選：

品牌來源：abc 好車網 API，包含 TOYOTA、HONDA、BMW 等主流品牌
車型對應：每個品牌配置核心車型（如 TOYOTA → Corolla Altis、RAV4、Camry）
主題模板：推薦年份常見問題中古行情車系介紹
另支援 Google Ads CSV 匯入，自動帶入月搜尋量與趨勢分數

▼

2問題庫生成

根據關鍵字候選，自動生成 GEO 問題庫，每個問題對應一個查詢關鍵字。

問題範例：「TOYOTA RAV4 中古車推薦買哪年？」
狀態管理：active（待處理） → done（已產出文章）

▼

3來源爬取（Collectors）

根據問題庫中的查詢關鍵字，從多個管道爬取原始內容：

Google News RSS（主要來源）：以關鍵字搜尋繁體中文新聞
Reddit（輔助來源）：搜尋汽車相關子版，取得國際觀點
PTT / Mobile01（擴充來源）：台灣本地論壇討論

▼

4內容處理與分類

每筆原始來源經過品牌偵測、車型偵測、主題分類、摘要生成、標籤標記等處理。

▼

5草稿分組與生成

將已處理的來源依「品牌 + 車型 + 分類 + 主題」分組，每組至少需要 2 筆主要來源才會產生草稿。

每篇草稿包含：結論摘要、建議答案、條件判斷、比較與理由、注意事項
依 GEO 格式產出：先直接回答問題，再補充背景與來源

每日排程流程（run-daily）

匯入/更新品牌資料庫
產生關鍵字候選（前 5 大品牌 × 核心車型 × 主題模板）
從關鍵字候選生成問題庫
根據問題庫爬取 Google News RSS
根據問題庫爬取 Reddit（可跳過）
處理所有未分類的原始來源
將已處理來源分組，生成最多 10 篇草稿
已產出草稿的問題自動標記為「完成」