文章爬取與產線運作邏輯

系統架構總覽

本系統是一套自動化的中古車內容產線,從資料爬取、分類處理到文章草稿生成,全程由排程驅動。目標是為 abc 好車網產出符合 GEO(Generative Engine Optimization)的高品質文章。

技術堆疊:Python + PostgreSQL + RSS 爬蟲 + 規則引擎分類 + 模板化草稿生成
排程方式:Zeabur 部署,每日 06:00 自動執行 run-daily 排程

完整流程

1品牌與關鍵字種子

系統預載 abc 好車網的品牌資料庫(含品牌代號、刊登量、優先排名),並根據品牌 × 車型 × 主題自動產生關鍵字候選:

  • 品牌來源:abc 好車網 API,包含 TOYOTA、HONDA、BMW 等主流品牌
  • 車型對應:每個品牌配置核心車型(如 TOYOTA → Corolla Altis、RAV4、Camry)
  • 主題模板:推薦年份 常見問題 中古行情 車系介紹
  • 另支援 Google Ads CSV 匯入,自動帶入月搜尋量與趨勢分數

2問題庫生成

根據關鍵字候選,自動生成 GEO 問題庫,每個問題對應一個查詢關鍵字。

  • 問題範例:「TOYOTA RAV4 中古車推薦買哪年?」
  • 狀態管理:active(待處理) → done(已產出文章)

3來源爬取(Collectors)

根據問題庫中的查詢關鍵字,從多個管道爬取原始內容:

  • Google News RSS(主要來源):以關鍵字搜尋繁體中文新聞
  • Reddit(輔助來源):搜尋汽車相關子版,取得國際觀點
  • PTT / Mobile01(擴充來源):台灣本地論壇討論

4內容處理與分類

每筆原始來源經過品牌偵測、車型偵測、主題分類、摘要生成、標籤標記等處理。

5草稿分組與生成

將已處理的來源依「品牌 + 車型 + 分類 + 主題」分組,每組至少需要 2 筆主要來源才會產生草稿。

  • 每篇草稿包含:結論摘要、建議答案、條件判斷、比較與理由、注意事項
  • 依 GEO 格式產出:先直接回答問題,再補充背景與來源

每日排程流程(run-daily)

  1. 匯入/更新品牌資料庫
  2. 產生關鍵字候選(前 5 大品牌 × 核心車型 × 主題模板)
  3. 從關鍵字候選生成問題庫
  4. 根據問題庫爬取 Google News RSS
  5. 根據問題庫爬取 Reddit(可跳過)
  6. 處理所有未分類的原始來源
  7. 將已處理來源分組,生成最多 10 篇草稿
  8. 已產出草稿的問題自動標記為「完成」