Twinkle AI - 正體中文開源語言模型社群

開源資料集

彙集政府資訊、社群對話與文學檔案，並過濾淨化成我們可以用來訓練的資料集內容。

資料淨化與語境校準

我們並非單純累積資料量，而是專注於「資料淨化與語境校準」。目前的資料來源涵蓋公開政府資訊、在地社群討論及台灣文學檔案。在資料整理上，我們開發了一套自動化過濾機制，精準篩選掉非在地慣用語（例如將常用的「資訊」誤稱為「信息」的用法），並建立結構化的資料集，確保模型學習到的是符合台灣日常習慣且精確的語感。

Illustration showing correct Traditional Chinese terminology

Formosa Vision 資料集

與國家文化記憶庫合作建置視覺模型資料集。透過針對古道、眷村與馬祖戰地的影像校正，教 AI 認出台灣特有的文化符號，讓模型的在地辨識更精準。

Taiwanese traditional architecture illustration

探索資料集