R 語言資料工程及探勘實務


講座簡介

資料工程及探勘是資料科學中重要的一環,但是來自現實的資料是無法直接進行分析的,在原始數據 ( Raw Data ) 得以真正地發揮其價值前,需要藉由資料工程,將非結構化的資料轉換成可處理的型態,並且將來自不同源頭的資料透過層層的重組、計算與整合成為結構化的資料;然後,結構化的資料需要進一步做資料探勘,透過系統性的方法釐清資料的脈絡、找出有價值的特徵以及關聯性,達成將資料中隱藏的資訊挖掘出來的最終目標。

這門兩天的進階課程將從最實務的角度跟大家分享如何在 R 中處理非結構化的資料、耙梳資料的脈絡並且整合迥異的資料源;進而對處理後的資料進行關連性分析、叢聚分析以及資料分類以發掘出隱含於資料中真正的價值。

議程

7/14 課程

時間 主題
09:30 - 10:30

R 語言資料工程初步:

利用內建繪圖函式觀察資料
10:30 - 11:00 茶點時間
11:00 - 12:30

R 語言資料工程初步:

載入難搞的中文及非結構化資料
12:30 - 13:50 午餐
13:50 - 15:20

R 語言資料處理:

利用梳理與歸納,發掘資料中的價值
15:20 - 15:50 茶點時間
15:50 - 17:20

R 語言資料處理:

利用 Join 統合不同來源的資料

7/15 課程

時間 主題
09:30 - 10:30

資料探勘心法篇

10:30 - 11:00 茶點時間
11:00 - 12:30

一張發票談關聯性分析

12:30 - 13:50 午餐
13:50 - 15:20

電子採購資料談叢聚分析

15:20 - 15:50 茶點時間
15:50 - 17:20

電子投票記錄談分類

講師簡介

許懷中博士 Dr. Hwai-Jung Hsu

中央研究院資訊科學研究所 / 博士後研究員

許懷中博士 2011 年於國立交通大學資訊科學與工程學系取得博士學位,現任職中央研究院資訊科學研究所博士後研究員;他的研究興趣廣泛,包含巨量資料分析與架構、生心理量測、網路遊戲、雲端計算以及軟體工程。

許博士為具備豐富實務經驗的學術研究者,以其獨特的 know-how 與洞察力由產業界的巨量高維資料挖掘埋藏其中的價值;此外,許博士近年也致力於國內資料人才的培養,曾為資策會、外貿協會等單位教授 R 語言與資料分析以及創意訓練等相關課程,頗受好評。

謝宗震博士 Dr. Xie Zhen Zong

DSP智庫驅動 / 資料科學家

DSP智庫驅動資料科學家,清華統計博士,對於統計方法與工具的推廣具有極大的熱忱,期望利用統計思維及分析工具幫助各個領域解決問題。輔導超過300位政府、企業、非營利組織人士成為資料分析人才。 Data for Social Good (D4SG)計畫共同發起人,打造一個「資料力,做公益」的交流與媒合平台。

課程須知

這個課程屬於中階課程,適合已經初步瞭解 R 的語法、有一些使用 R 的經驗,但是想要更進一步利用 R 處理並且分析資料的朋友。

本課程的精神在於傳授同學們實務上利用 R 語言進行資料工程與探勘的技巧,並且引領同學從實作中學習處理與分析真實世界資料科學問題的方法,以實際操作為主,同學們需要自己準備筆電,筆電為 Windows 作業系統的同學們,請使用純英數組成的使用者帳號進行課程,以避免由於中文目錄名稱造成的技術問題。

已經報名的同學們請到 http://www.datascienceandr.org 網站,參照網站中的步驟以及教學影片在自己的筆電上安裝 Base R、R Studio、 swirl 以及 DataScienceAndR 課程,並且完成其中 RBasic01 - RBasic06 的課程。