lysayit lysayit:3953 份 Word 檔裡的立委發言
📅 2021-12-11 💻 HTML
立法院的公報,是 3953 份 Word 檔
立法院把委員的每一句發言都記錄下來,整理成公報,全部公開——這件事本身值得肯定。
但資料的格式是 Word 檔。2017 年至 2021 年,累積了 3953 份,加起來 43GB。沒有 API,沒有搜尋,沒有辦法問「某個委員到底說過什麼」。
這樣的公開,對公民監督來說幫助有限。
OGP 開放國會,帶來了改變的機會
2020 年起,積極參與立法院的 OGP(開放政府夥伴關係)開放國會行動方案。這讓跟立法院的合作更緊密,也讓更多人開始認真看待「立法院的資料到底有多難用」這個問題。
在這個背景下,2021 年 12 月第 47 次 g0v 黑客松上提出了新版「立委 say it」的提案——目標是把那 3953 份 Word 檔變成一個可以使用的東西。
3953 份 Word,轉成發言資料庫
工作的核心是解析這些 Word 文件。
公報的格式有一定規律:每段發言前面會標注發言者的名字,用括號框起來。把這個規律用程式抓出來,就能把每份文件切成一段一段「誰說了什麼」的結構化資料。
hackath47n 當天的成果:
- 上線了委員目錄頁,可以按人瀏覽
- 補入非委員的人物資料(政務官、部會首長等也會在公報裡發言)
- 整合公報發言紀錄,可以按名字查詢
後續的目標是補齊缺漏年份、加入全文搜尋、讓資料能自動更新。
為什麼叫 say it
這個命名來自英國 mySociety 的 SayIt 工具——一個把議會逐字稿轉成對話式介面的平台,讓密密麻麻的議事記錄變得像聊天紀錄一樣可以閱讀。
lysayit 的「ly」是立法院(Legislative Yuan),「sayit」是這個概念的直接致敬。