從資料到知識:從零開始的資料探勘


講座簡介

資料探勘 (Data Mining) 在資訊科學中,是一門橫跨多個領域的學問。結合機器學習、人工智慧、資料庫與統計學等各個不同領域的技術,資料探勘期望能從資料中抽取出許多有用的資訊,並轉換為人類可理解、解讀的格式。更進一步來說,資料探勘的目的便是在於從雜亂的「資料」中解析出所隱含的資訊,並讓其成為對人類有用的「知識」。

資料探勘也是資料科學中非常重要的一環。透過挖掘隱藏在資料背後的知識,資料科學家便可以做出各種有趣且實用的應用。然而,未經處理的資料往往相當混亂,令人難以發現資料背後所藏有的訊息。更甚者,有時候面對資料時,常常連能做出什麼應用都讓人感到疑惑。此時,若能善用資料探勘的技術,這些問題往往便能迎刃而解。

本課程的目的,在於帶領初學者深入淺出地了解資料探勘是如何從資料中獲取知識,並系統化地將資料探勘能解決的問題分門別類。此外,對於資料探勘中所會遇到的問題,亦會介紹常用的解決方法。再佐以大量實際應用的例子,將能更加體會這些方法運用的方式。如此一來,在遇到待處理的資料時,便能駕輕就熟地運用這些方法挖掘資料背後的知識。

議程

時間 主題
09:30 - 10:30

從資料到目標,從目標到知識

10:30 - 11:00 茶點時間
11:00 - 12:30

從資料中發現蛛絲馬跡:

特徵抽取與選擇
12:30 - 13:50 午餐
13:50 - 15:20

發現資料中的小團體:

分群與其應用
15:20 - 15:50 茶點時間
15:50 - 17:20

沒有特徵該怎麼辦?

從推薦系統談起

講師簡介

姜俊宇 Jyun-Yu Jiang

美國加州大學洛杉磯分校 / 博士生

姜俊宇在國立臺灣大學資訊工程系取得學士與碩士學位,其碩士論文曾獲中華民國人工智慧學會與計算語言學會之碩士論文獎。現於中央研究院擔任研究助理,並將於 2016 年秋季前往美國加州大學洛杉磯分校攻讀博士學位。

主要研究方向為資料探勘、資訊檢索、機器學習與社群網路,近年來的研究成果曾發表於 CIKM, SIGIR, WWW, ICWSM, CCS 等頂級國際學術會議。另外,在 2012 年亦與臺灣大學的教授與同學共同組隊參加 KDDCUP 國際資料探勘大賽,並取得冠軍的成績。

課程須知

如同課程名稱所述,本課程為入門課程,不需任何基礎。 此外,關於撰寫程式的熟悉度,本課程亦無要求。
- 對於已有能力撰寫程式的學員,本課程預期學員在課後能自行運用熟悉的程式語言實作方法。
- 對於對程式撰寫較不熟悉的學員,本課程亦會介紹一些方便的輔助工具,以幫助學員日後進行資料探勘。