realprice

實價登錄

📅 2012-10-19 💻 PHP ★ 40 stars 🍴 14 forks

2012 年 8 月,台灣實價登錄制度正式上路,民眾第一次可以查到房屋實際成交價格。但政府提供的查詢介面只能一筆一筆查,沒有辦法下載原始資料做分析。

兩個月後,我動手寫爬蟲,把資料全部抓下來。

爬到一半,碰到麻煩。內政部悄悄把總價和門牌地址兩個關鍵欄位改成了圖片——文字變成圖,原本的爬蟲邏輯整個失效。

本來有點想放棄。後來在洗澡的時候想到解法:用 jp2a 把驗證碼圖片轉成 ASCII 字元印在終端機上,然後手動輸入。雖然麻煩,但能跑。就這樣把 41,078 筆資料爬了出來,整理成 JSON 和 Excel 格式,放上 GitHub 和 Dropbox 讓大家下載。

資料說明裡特別標注了一個容易誤用的陷阱:網站上顯示的「交易單價」是總價除以建物面積,但總價包含車位,所以有車位的物件單價基準不同,不能直接拿來比較。這種藏在資料裡的細節,如果不說清楚,分析結果很容易跑歪。

這是我第一個跟政府開放資料有關的專案。實價登錄讓我第一次嘗到「把政府資料挖出來、整理好、讓大家用」的滋味,也因此對 open gov data 產生了興趣。

同年 12 月 1 日,帶著這份資料去參加了第零次 g0v 黑客松——台灣零時政府的第一場活動,在中研院資創中心舉辦。那是一個開放形式的 barcamp,一整天湊出了近三十個提案:立法院公報解析、政府預算視覺化、地理資訊工具、失蹤兒童協尋、輻射量測地圖……每一個都是試圖用程式回應「為什麼政府資料不能更容易查到」這個問題。

我自己帶去兩個東西:這份整理好的實價登錄資料,還有一個剛做好的立委基本資料 API(讓任何網頁都可以嵌入立法委員的頭像與基本資訊)。就在黑客松現場,有人拿了我的實價登錄資料去 Google Fusion Table 試著做地圖——當天還在轉 geocode,理論上能結合 Google Map 做出可以按地圖瀏覽的房價資料。那種「資料一放出去,馬上有人接著用」的感覺是第一次體驗到,也從那天開始確認了這條路值得繼續走下去。