課程介紹

 

面對龐大與多元的資料浪潮,資料科學世代已經興起,近年來國外企業應用 R 語言進行資料分析已經相當成熟,包含 Google、Facebook、Agoda、Intel、Pfizer、Bank of America 等企業,都採用 R 語言進行資料分析。國際知名的 KDnuggets 論壇最新統計,R 語言已經連續三年獲得資料科學家採用資料分析語言第一名的殊榮。

 

在眾多的資料分析工具中,R語言在統計分析上最為知名,除了具備物件導向的開發環境、擁有強大的資料視覺化能力、更有支援跨平台與免費等優勢,R 語言專注在資料分析上的特性,使它已經成為目前資料分析和繪圖的主流軟體之一。

 

本年會的「資料分析上手課程」將帶領有志成為資料科學家的朋友們,透過R語言進入資料分析的殿堂。課程首先介紹 R 常使用的基礎語言,接著引導學員們從真實生活中發想問題,針對問題去進行資料收集、萃取、清理,最後以資料視覺化與統計去探討資料的涵義。課程中將由來自中研院、清華大學、露天拍賣、趨勢科技、普生和玉山銀行等 9 位產界與學界的講師聯手出擊,除了豐富的教學與互動,更要讓大家體驗資料科學中跨界的精采。

 

「資料分析上手課程」除了基礎內容之外,課程中也精心安排一連串處理結構化、半結構、非結構化的資料處理技巧。第一天課程內容包含基本語法、資料輸入、資料型態、流程控制、套件教學、資料轉換、資料整併、資料爬取等項目。第二天課程內容則包含資料探索、統計推論、機器學習、基本繪圖、進階繪圖、報表展現等項目。課程核心囊括撰寫網頁爬蟲程式、運用 R 語言將新聞進行斷詞、各項非結構化資料轉結構化資料的解決方案。課程也精心安排各項實作,課程中講師會引導學員以R語言建立各項圖表與報告,協助學員在未來能立即將R語言整合到自己的工作之中。為使得課程進行順利,也請學員詳讀課前須知,並完成各項環境準備。

課程目標

 

  1. 快速熟悉 R 語言
  2. 學會利用 R 語言進行資料分析
  3. 體驗資料科學的基本流程
  4. 利用 R 語言建立 Reproducible 圖表和報告

課前須知

 

本課程著重於上課中的操作,為了達到最佳的學習效果,請學員參加前做好以下的準備(兩種方案擇一):

  1. (基礎課程)自備筆電並安裝以下工具:
    1. R-3.1.0以上版本 (http://cran.rstudio.com/)
    2. RStudio IDE (http://www.rstudio.com/products/rstudio/)
    3. 課程教材套件 DSC2014Tutorial。請依照 套件說明網頁 的指示進行安裝。有任何問題歡迎到 Issue區 回報錯誤訊息,我們會儘快回覆。
    4. 安裝可以瀏覽投影片的瀏覽器(建議使用 Firefox
  2. (進階課程) 自備筆電並依照 虛擬環境建置說明網頁 的方法安裝我們準備的虛擬機器

課程大綱

 

  1. 基礎教學

    基礎教學課程主要提供無程式開發經驗的學員,藉由課程瞭解 R 語言的基本操作,包含基本與常用的語法、資料的輸入方式、各種資料型態與程式語言基本流程控制。本階段課程目標將協助學員對於 R 語言有初步的認識,並對程式語言有基本的概念。

    1. 基本語法
    2. 資料輸入
    3. 資料型態
    4. 流程控制
  2. 資料 ETL

    ETL 為萃取 (Extract)、轉換 (Transform)、讀取 (Load) 的縮寫,是一種常見的資料流動轉換的過程。ETL 課程主要提供已具備R語言基礎的學員,藉由課程瞭解資料收集、轉換、整併的過程,課程中包含各類的套件介紹、資料爬取的方法、資料的各種轉換技巧與各類資料格式整併的方式。本階段課程目標將協助學員快速進入 ETL 的流程,並瞭解如何運用R語言獲得資料、整理資料,做進階分析的準備。在第一天的最後,我們也請社群的嘉葳跟大家分享用 R 抓取網頁資料的經驗,以及對文字資料做前處理的心得。

    1. 套件教學
    2. 資料轉換
    3. 資料整併
    4. (進階)資料爬取與前處理
  3. 資料分析

    為了翻動資料並找到價值,資料分析就顯得相當重要。本課程提供將要使用R語言做進階分析的學員,針對手上的資料進行深入探討,課程中以「找問題」、「瞭技術」、「動手做」三階段進行。包含如何探索資料並提出問題,以及各類分析技術如統計推論、機器學習,最後以個案實作的方式,使學員能聚焦學習。本階段課程目標除了協助學員了解常見的資料分析理論,並協助學員掌握 R 語言資料分析的要領,一窺資料背後的端倪。

    1. 提出問題
    2. 資料探索
    3. 統計推論
    4. 機器學習
    5. 個案實作
  4. 資料視覺化

    資料的視覺呈現是掌握資訊的關鍵。因此在本課程中,我們將協助學員運用R語言進行基本繪圖、進階繪圖 (ggplot2),以及透過 R 語言進行各類資料視覺報表的呈現。基本繪圖和進階繪圖課程時,奎銘與岳軒將先解釋 R 繪圖功能的基礎邏輯,再依據使用經驗跟學員們細解各種畫圖指令的用法。視覺報表的課程中,孟坤會再幫大家複習繪圖的指令,並且帶著學員們將成果置入報告中。本階段課程目標主要協助學員運用R語言進行資料視覺化與報表製作,藉此提升學員在資料的展現與溝通能力。

    1. 基本繪圖
    2. 進階繪圖
    3. 報表展現