newsdiff 新聞修改追蹤
新聞被偷改,這件事在 2013 年以前我就知道可能發生,但一直把它當成個案、筆誤、或者不算嚴重的事。直到三星寫手門。
2013 年,三星付錢找人寫手稿攻擊競爭對手的事情曝光。事件發展過程中,有媒體貼出相關報導後,新聞隨即消失或內容被悄悄修改。第一次意識到「原來新聞是可以因為商業壓力而被系統性地改掉的」——這不是筆誤,是有動機的編輯行為。
2013 年 6 月,在第 3 次 g0v 黑客松上提案了這個想法,叫「News Diff 來看看新聞改過了沒?」。但那時還只是個提案。真正動手是兩個月後——8 月 13 日到 15 日,一個人在家,三天密集把整個系統從零做完。第一天就把蘋果日報、中時、自由時報、中央社、東森、nownews、新頭殼全部加齊,第三天加上前端 diff 介面和 README,正式對外開放。
做法很直接:每十分鐘爬一次各大新聞網站,把每篇文章的快照存起來,有修改就記錄 diff。用 parallel processes 讓多個媒體同時追蹤,不漏掉任何更新。
但維運這個系統有一個持續的成本:每當新聞網站改版,爬蟲就會壞掉,需要重新適配。2014 年 1 月大擴張,加入 TVBS、公視、台視、華視、民視、三立等電視台;2014 年 8 月加入風傳媒;後來關鍵評論網等新媒體也陸續加入,總計追蹤約 18 個媒體來源。六年間,光是應對各家網站改版就更新了數十次爬蟲。
後來有幾位學術界的人來索取資料,拿去做媒體研究。
一直刻意讓它維持在半低調狀態。原因很簡單:新聞全文存下來,版權問題說不清楚。所以從一開始就在 robots.txt 裡擋掉搜尋引擎,不讓資料被外部索引,以這種方式繼續運作著。
隨著其他專案越來越多,能分給 newsdiff 的時間越來越少。2019 年 6 月做了最後一批爬蟲更新,之後就再沒有時間跟上各家網站的改版腳步,系統也就逐漸停擺了。