junk-encoder — Ronny 的開源回憶錄

有沒有可能讓審查系統看不懂你在說什麼？

2019 年 3 月，第 33 次 g0v 黑客松。

這個問題在腦子裡轉了一陣子：如果文字審查是靠關鍵字過濾、語意分析來運作的，能不能讓有意義的訊息看起來像廢話，讓機器掃描不出來，但知道方法的人還是能解讀？

英文世界早就有 SpamMimic——把訊息藏進垃圾郵件格式的英文裡。中文版呢？

核心想法很直接：

技術上的做法是：準備一個語法模板（比如「{名詞}{動詞}{受詞}」），搭配按詞性分類的詞庫，讓每個詞的選擇對應到特定的二進位片段。輸出的句子語法正確，但語意隨機——看起來就是有人在胡言亂語。

難度從簡單到困難設計了五個等級：

黑客松當天有提案、有成果，網站上線了。

廢文確實能編碼、能解碼。但做到後來發現一個根本的困難：要讓輸出的廢文「自然」，詞庫和語法模板必須夠大、夠多樣，否則機器學習的語意模型還是有機會偵測到統計異常。

Level 1 實作了，Level N 是個持續挑戰的目標。

廢文編碼器的使用場景比想像中多元：

提案共筆：g0v HackMD