newsdiff

新聞修改追蹤

📅 2013-08-15 💻 HTML ★ 25 stars 🍴 3 forks

新聞被偷改,這件事在 2013 年以前我就知道可能發生,但一直把它當成個案、筆誤、或者不算嚴重的事。直到三星寫手門。

2013 年,三星付錢找人寫手稿攻擊競爭對手的事情曝光。事件發展過程中,有媒體貼出相關報導後,新聞隨即消失或內容被悄悄修改。第一次意識到「原來新聞是可以因為商業壓力而被系統性地改掉的」——這不是筆誤,是有動機的編輯行為。

2013 年 6 月,在第 3 次 g0v 黑客松上提案了這個想法,叫「News Diff 來看看新聞改過了沒?」。但那時還只是個提案。真正動手是兩個月後——8 月 13 日到 15 日,一個人在家,三天密集把整個系統從零做完。第一天就把蘋果日報、中時、自由時報、中央社、東森、nownews、新頭殼全部加齊,第三天加上前端 diff 介面和 README,正式對外開放。

做法很直接:每十分鐘爬一次各大新聞網站,把每篇文章的快照存起來,有修改就記錄 diff。用 parallel processes 讓多個媒體同時追蹤,不漏掉任何更新。

但維運這個系統有一個持續的成本:每當新聞網站改版,爬蟲就會壞掉,需要重新適配。2014 年 1 月大擴張,加入 TVBS、公視、台視、華視、民視、三立等電視台;2014 年 8 月加入風傳媒;後來關鍵評論網等新媒體也陸續加入,總計追蹤約 18 個媒體來源。六年間,光是應對各家網站改版就更新了數十次爬蟲。

後來有幾位學術界的人來索取資料,拿去做媒體研究。

一直刻意讓它維持在半低調狀態。原因很簡單:新聞全文存下來,版權問題說不清楚。所以從一開始就在 robots.txt 裡擋掉搜尋引擎,不讓資料被外部索引,以這種方式繼續運作著。

隨著其他專案越來越多,能分給 newsdiff 的時間越來越少。2019 年 6 月做了最後一批爬蟲更新,之後就再沒有時間跟上各家網站的改版腳步,系統也就逐漸停擺了。


提案影片g0v 第 3 次黑客松 newsdiff 提案

在 g0v 大松的紀錄

第3n 客廳工廠黑客松 2013-06-08
提案
News Diff 來看看新聞改過了沒?
成果報告
路見不平
老蕭 monjour willy
第10n 資料科學黑客松 2014-08-30
成果報告
newsdiff