文章爬取與產線運作邏輯
系統架構總覽
本系統是一套自動化的中古車內容產線,從資料爬取、分類處理到文章草稿生成,全程由排程驅動。目標是為 abc 好車網產出符合 GEO(Generative Engine Optimization)的高品質文章。
技術堆疊:Python + PostgreSQL + RSS 爬蟲 + 規則引擎分類 + 模板化草稿生成
排程方式:Zeabur 部署,每日 06:00 自動執行
排程方式:Zeabur 部署,每日 06:00 自動執行
run-daily 排程
完整流程
1品牌與關鍵字種子
系統預載 abc 好車網的品牌資料庫(含品牌代號、刊登量、優先排名),並根據品牌 × 車型 × 主題自動產生關鍵字候選:
- 品牌來源:abc 好車網 API,包含 TOYOTA、HONDA、BMW 等主流品牌
- 車型對應:每個品牌配置核心車型(如 TOYOTA → Corolla Altis、RAV4、Camry)
- 主題模板:推薦年份 常見問題 中古行情 車系介紹
- 另支援 Google Ads CSV 匯入,自動帶入月搜尋量與趨勢分數
▼
2問題庫生成
根據關鍵字候選,自動生成 GEO 問題庫,每個問題對應一個查詢關鍵字。
- 問題範例:「TOYOTA RAV4 中古車推薦買哪年?」
- 狀態管理:active(待處理) → done(已產出文章)
▼
3來源爬取(Collectors)
根據問題庫中的查詢關鍵字,從多個管道爬取原始內容:
- Google News RSS(主要來源):以關鍵字搜尋繁體中文新聞
- Reddit(輔助來源):搜尋汽車相關子版,取得國際觀點
- PTT / Mobile01(擴充來源):台灣本地論壇討論
▼
4內容處理與分類
每筆原始來源經過品牌偵測、車型偵測、主題分類、摘要生成、標籤標記等處理。
▼
5草稿分組與生成
將已處理的來源依「品牌 + 車型 + 分類 + 主題」分組,每組至少需要 2 筆主要來源才會產生草稿。
- 每篇草稿包含:結論摘要、建議答案、條件判斷、比較與理由、注意事項
- 依 GEO 格式產出:先直接回答問題,再補充背景與來源
每日排程流程(run-daily)
- 匯入/更新品牌資料庫
- 產生關鍵字候選(前 5 大品牌 × 核心車型 × 主題模板)
- 從關鍵字候選生成問題庫
- 根據問題庫爬取 Google News RSS
- 根據問題庫爬取 Reddit(可跳過)
- 處理所有未分類的原始來源
- 將已處理來源分組,生成最多 10 篇草稿
- 已產出草稿的問題自動標記為「完成」