oldpaper oldpaper:四大報頭條十年封存
📅 2013-08-04 💻 HTML ★ 15 stars
同一個 repo,兩張臉
lagnews 和 oldpaper 是同一個 repo,但做兩件不同的事。
lagnews 負責「發出去」:每天把 30 天前的頭條推到 Facebook 粉專。oldpaper 負責「存進來」:每天把今天的四大報頭條抓下來、塞進資料庫,讓 oldpaper.g0v.ronny.tw 成為一個可以查詢的頭條封存庫。
Facebook 限縮 API 發文權限後,lagnews 的粉專就停了。但 oldpaper 的爬蟲繼續跑。
換了三個資料來源,跑了十一年
四大報頭條的資料來源,這十一年間換了好幾次:
- 最早從 Dimensions.tw 和 ETtoday 抓
- 中途換到直接爬各報網站
- 後來改從 Yahoo 新聞「重點新聞報你知」 抓,這個彙整頁面剛好每天整理四大報頭版
2020 年蘋果日報結束營業,四大報變三大報,爬蟲跟著調整。
2024 年 3 月 14 日,Yahoo 停止更新「重點新聞報你知」,資料來源消失,oldpaper 也跟著畫下句點。
跨年標籤雲:今年發生了什麼?
每年年底,我會拿這一整年累積的頭條標題做一件事:把每個月的標題丟去跑 wordcloud,生成十二張標籤雲,字越大代表那個月越常出現在頭版。
然後跨年夜跟朋友一起看。
效果很有趣:大家邊看邊說「喔!這件事原來是三月發生的,我還以為是好幾年前……」「啊對!那個事件!後來怎樣了?」十二張圖翻完,等於把整年的集體記憶快速重播了一遍。
2014 年的標籤雲 可以看到當年的大事輪廓——哪些字特別大,就知道那個月發生了什麼讓媒體瘋狂報導的事。
一個靜靜運作的封存計畫
oldpaper 沒有什麼引人注目的功能,就是每天執行、把資料存好。但十一年下來,它默默累積了從 2013 到 2024 年台灣四大報的頭條全記錄——一份民間自己做的新聞封存。
現在網站還能查,資料還在,只是不再更新了。