twcompany

台灣公司資料

📅 2014-01-10 💻 HTML ★ 64 stars 🍴 15 forks

2011 年塑化劑事件爆發,很多人想抵制統一集團。但「統一集團」到底包含哪些公司?消費者盯著貨架上的商品,根本搞不清楚哪些品牌背後是同一個老闆。

這個困惑推動了一切的起點。

要回答「什麼是集團」,得先有公司資料。經濟部商業司其實有公布全台公司名單,包含資本額、營業項目、董監事名單,但格式分散、沒有 API、不方便查詢。於是 twcompany 這個 repo 在 2012 年底誕生了——把商業司資料爬下來、整理成資料庫、每月定期更新。後來又整合財政部稅籍資料,讓公司資料更完整。

有了資料庫,下一步才是視覺化。公司之間的關係藏在董監事名單裡——同一個人同時擔任多家公司的董事,就是財團網絡的線索。2014 年初,company-graph 把這個邏輯做成互動圖:輸入任何一家公司的統一編號,就能看到以這家公司為中心的關係網路,一層一層展開,找出背後共同的人頭董事與集團結構。

這份資料後來被很多人運用。研究者 Gilbert Liu 用它做了黨營事業研究,把國民黨黨產的公司關係網絡視覺化呈現出來。每逢選舉或重大企業爭議,就會有人拿 company-graph 來挖掘公司背後的關係脈絡。

一個從「我想知道哪些東西不能買」開始的疑惑,最後變成台灣公司關係透明化的基礎設施。

有一件事直到 2025 年初才公開說出來

從 2013 年到現在,這個每日更新其實是我每天不間斷手動執行的 XD

我每天早上起床第一件事,就是開啟電腦,然後連入伺服器,進入 screen 後在兩個視窗,按下「上」「enter」重覆執行昨天執行的指令,就開始了今天的爬蟲和資料更新作業,大概每天花我 30 秒鐘左右。

剛開始一直想找機會把他自動化,但是覺得要把他自動化可能需要花半個小時到一個小時,就一直覺得每天只花 30 秒時間的事好像會懶得花一個小時把他解決掉。

到後來,這個每日更新已經變成一個我的儀式,每天早上起床當我打開電腦,進去執行了今天的指令,就象徵著我今天開始了。

而且這個每日更新也成為了一個我還活著的證明,之前單身一人住的時候,有時候會想說如果我在家默默離世,第一個被大家發現我離開的原因可能是因為公司資料和標案資料停止更新了 XD

最近歐噴公司因為最近有越來越多計畫需要更多爬蟲,已經不太可能每個都是手動執行了,因此我最近建了一套歐噴公司爬蟲的基礎建設,盡可能讓各爬蟲都自動化,我一直在煩惱公司的爬蟲和標案的爬蟲是否也要加入這個自動化機制中,感覺如果這兩個更新工作被自動化了,我的早上會突然失去一個起床的儀式 XD


投影片參考2014-11-21 交大統研所演講「開放資料與協作」

在 g0v 大松的紀錄

第6n 勞動基準黑客松 2013-12-21
提案
世界銀行x主計處
地圖、資料、世界
成果報告
世界銀行x主計處