開源資料集

彙集政府資訊、社群對話與文學檔案,並過濾淨化成我們可以用來訓練的資料集內容。

資料淨化與語境校準

我們並非單純累積資料量,而是專注於「資料淨化與語境校準」。目前的資料來源涵蓋公開政府資訊、在地社群討論及台灣文學檔案。在資料整理上,我們開發了一套自動化過濾機制,精準篩選掉非在地慣用語(例如將常用的「資訊」誤稱為「信息」的用法),並建立結構化的資料集,確保模型學習到的是符合台灣日常習慣且精確的語感。
Illustration showing correct Traditional Chinese terminology

Formosa Vision 資料集

與國家文化記憶庫合作建置視覺模型資料集。透過針對古道、眷村與馬祖戰地的影像校正,教 AI 認出台灣特有的文化符號,讓模型的在地辨識更精準。
Taiwanese traditional architecture illustration