課程登入
 

黃冠華 博士
國立交通大學
統計學研究所
30010 新竹市大學路1001號

電話:03-513-1334
傳真:03-572-8745
ghuang@stat.nctu.edu.tw
辦公室:綜合一館423室


資料科學、統計與R


課程概述與目標

在此數據爆炸的時代,巧妙運用「大數據」(big data),將可為我們的生活從醫療、政府、教育、經濟、人文各個方面, 帶來新的價值與創新。然而大數據的內容常常是混亂不齊、品質不一,而且分布在無數伺服器中。 因此如何從大數據裡,引出潛藏其中的價值,便成為現在最急迫的工作, 一個新的科學領域:「資料科學」(data science)也孕育而生。 統計是從複雜數據中萃取出有用訊息的學問,因此在資料科學領域裡,便扮演了舉足輕重的角色。 傳統統計領域著重於數理方法學的發展,入門門檻高,往往讓其他領域想運用統計分析方法的人卻步。 近年來R統計軟體( https://www.r-project.org/)的出現, 改變了統計分析方法難以親近的面貌,透過R統計軟體,使用者不用完全了解統計方法深奧的理論背景, 便可以輕易執行許多複雜的統計分析。

本課程將以實際的大數據為核心,搭配R統計軟體的使用,引導課程參與者接觸並學習統計基本原理、 資料探索方法(exploratory data analysis)、統計檢定(statistical hypothesis testing)相關的概念和方法、 迴歸分析(regression analysis)、主成份與因素分析(principal component and factor analysis)、 集群分析(cluster analysis)、分類與判別分析(classification and discrimination analysis) 等資料探勘(data mining)相關的概念和方法。

上課內容,將廣泛包含所有相關知識,上課時側重講述這些知識的基本觀念與模型解釋(如果需要時)。 對於深入的理論與其餘詳細資訊,則僅作重點提示或提供參考文獻。課堂中將以實際的例子來補充上課內容, 並討論相關方法的統計軟體R的實作。學期成績的評定,則依據繳交的作業與課程實作計劃報告。 我們將結合不同背景的學生組成課程實作計劃工作小組,每一工作小組將各自選定一大數據分析議題, 針對特定的問題提出解決方案,實作整個大數據分析。

先修科目或先備能力

1. 有寫電腦程式的經驗
  • 像:C, C++, Java, Python, R,…
2. 最好修過基礎統計學
  • 知道:隨機變數、信賴區間、假設檢定、…
3. 願意學習新的軟體、工具
  • 常會非常花時間
  • 要大量閱讀網路上的文件
  • 閱讀許多英文文件

 
 

更新日期:2017年9月7日
ghuang@stat.nctu.edu.tw