我們都知道資料探勘是資料科學中的基礎科目,這個科目總讓大部分的人有個錯覺:以為學了這門課以後,就可以從雜亂、巨大的資料中抽取出有意義的知識。然而實際上,即使上完了資料探勘課卻仍然發現資料往往混亂、難以著手,無法真正從透過資料探勘技術得到有價值的知識。
為甚麼?大部份的資料探勘或機器學習方法其實都是利用數值資料,文字資料要分析、整理往往要經過許多前處理,才有可能挖掘文字中的深層知識,即使是同一批文字資料,透過不同處理方式能得到的資訊常常差異甚大。本課程的目的在引領資料工作者:分析、整理原始文字資料,針對文字、與待解問題的特性,找到適合的轉換方式,進而可以利用資料探勘技術,找出有價值的知識。
本課程由四個部分組成:
9:00 - 9:30 |
報到 |
9:30 - 10:30 |
文字探勘簡介 |
10:30 - 10:50 |
茶點時間 |
10:50 - 12:30 |
文字特性 |
12:30 - 13:20 |
午餐 |
13:20 - 15:00 |
文字探勘技術簡介 |
15:00 - 15:20 |
茶點時間 |
15:20 - 17:00 |
案例分享 |
陳宜欣,美國南加州大學資訊科學博士,專長在資料工程、資料分析,自大學與碩士時期在管理學院的薰陶,始終相信:好的科技技術應該蘊涵著人文關懷。目前帶領來自世界各地的研究團隊成員,致力運用資料分析技術來找出各種數據背後的群眾智慧,最近將焦點放在跨語系情緒與心理分析技術。研究之餘,協助實驗教育的照海華德福建校,並執筆人氣部落格『教書匠的夢想』。
© Copyright 2017 - 台灣資料科學協會