【107-2】大數據技術平台與應用

Big Data Technology Platform and Applications

楊朝棟 (東海大學)

  課程目標及內涵 (Course Objectives and Contents)
「巨量資料/大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Clou...

Ch 1. 巨量資料簡介及AI大數據分析領域現況與挑戰 /  楊朝棟
Ch 2. Hadoop實作 /  楊朝棟
Ch 3. Hadoop/HDFS與HBase的應用 /  楊朝棟
Ch 4. 巨量資料的儲存與管理 /  楊朝棟
Ch 5. Cloudera大數據分析平台實作 /  楊朝棟
Ch 6. Python爬蟲實作 /  楊朝棟
Ch 7. 巨量資料與視覺化 /  楊朝棟
Ch 8. Nextcloud私有雲架設 /  楊朝棟
Ch 9. ELK Stacka資料分析與視覺化 /  楊朝棟
Ch 10. Freenas私有雲實作 /  楊朝棟
Ch 11. Spark叢集運算框架實作 /  楊朝棟
Ch 12. Weka資料探勘軟體應用 /  楊朝棟
Ch 13. ownCloud個人雲端儲存服務實作 /  楊朝棟
Ch 14. 課程期末專案展示1 /  楊朝棟
Ch 15. 課程期末專案展示2 /  楊朝棟

計畫主持人資訊

姓 名 楊朝棟
陳鶴文
電子信箱 ctyang@thu.edu.tw
hwchen@thu.edu.tw
電 話 0936146247
04-23590121#33636
服務學校 東海大學
東海大學
系所單位 東海大學資訊工程學系
環境科學與工程學系
職 稱 特聘教授
教授

教師簡介 (更多資訊)

姓 名 楊朝棟
現 職 東海大學資訊工程學系特聘教授
E-Mail ctyang@thu.edu.tw
個人網頁 http://hpc.thu.edu.tw/ctyang/profile.php
連絡電話 0936146247

最高學歷

國立交通大學資訊科學研究所博士

研究專長

雲端計算、大數據、平行處理、深度學習

近年研究主題

雲端計算、大數據、平行處理、深度學習

中文課程名稱: 【107-2】大數據技術平台與應用
英文課程名稱: Big Data Technology Platform and Applications
教師姓名: 楊朝棟
開課學校/系所: 東海大學
開課學期: 1072
學分數: 3 學分
課程關鍵字: 巨量資料/大數據 雲端運算 高效能運算(High Performance Computing)、機器學習(Machine Learning)、雲端計算(Cloud Computing)、資料探勘(Data Mining)
課程領域: 科學及方法
課程階層: 高階
應用數位技術/工具:

Hadoop & HBase
Spark
Python Crawler
OwnCloud
NextCloud
Cloudera
ELK Stack
 

先備課程: ABC基礎:空氣品質統計分析與軟體實作
數位學習內容設計
延伸及相關課程: (無)
參考網站: HPC實驗室AQI空汙觀測網

課程概述

  課程目標及內涵 (Course Objectives and Contents)
「巨量資料/大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Cloud Computing) 之後,儼然成為學術界跟科技業中最熱門的潮字,似乎每家公司都在進行有關的研究,三句不離大數 據。巨量資料時代,統計與資料分析是根本中的根本。數據專家(Data Scientist)或量化分析師(Quantitative Analyst)的專業包含了統計學、電腦科學和數學,過去這些人才都搶著要進華爾街工 作,但多虧了 Big Data 帶來的風潮,現在各行各業都在尋找擁有量化分析、統計學背景的工程師、數據專家。本課程將以實際體驗Hadoop多台主機的分散式叢集架構,做到HDFS分散式儲存和MapReduce的叢集運算,達到Big Data的處理與分析。學習Hadoop儲存系統與資源管理框架及Spark In-Memory巨量資料相關關鍵技術。資料分析軟體及程式語言-Python或R語言做為進入巨量資料分 析的初階基本課程,相信要進大數據一行不成問題。
在大數據技術平台與應用這門課程中,將帶領學生了解當前最當紅的與大數據技術與平台,並利用相關的開放源碼框架實作學習,使學生學習到符合目前與未來發展趨勢的基礎原理與相關的實作技術。從服務雲端化至大數據軟體環境建置及應用實作,達到理論與實務兼備的教學目標。
讓學生暸解與熟悉代表性的巨量資料分析技術之操作、應用與實現的方法
讓學生暸解與熟悉常見的巨量資料運算平台之原理、架構,並實際建置與操作
讓學生暸解與熟悉巨量資料之熱門議題,如:高效能運算(High Performance Computing)、機器學習(Machine Learning)、雲端計算(Cloud Computing)、資料探勘(Data Mining)
提高學生對於巨量資料分析技術與相關應用的興趣,培植國內相關領域之可用人才。
利用實作達到理論與實務兼備的教學目的。
實驗1:Data analytics on single machine,利用巨量資料分析技術(Python或R、Weka或Scikit-Learn)觀察生活現象,在本課程提供了四個搭乘計程車的問題供學生實作。
實驗2:Big Data analytics on Big Data platform,使用Java、Scala或Python在Hadoop平台上運行Spark處理大數據資料,本課程要求學生實作”word count”範例程式作為練習,再將此程式修改並搭配實驗一的題目來做更深入的研究與討論。

教學目標

 運用數學、科學、工程與資訊科技知識的能力
分析問題、定義需求並獨立尋找解決方法的能力
設計與實作元件或系統所需的技術能力
團隊合作與溝通的能力
吸收科技新知與產業動態的能力
專業知識與技術
具有發現、分析、解決問題能力
具有邏輯運算思維能力
培養數位科技應用能力

修課條件

具備基礎計算機概論能力

具備基礎Linux操作能力

修習過相關大數據課程為佳

 

授課方式

課堂教學

成績評量方式

  評分項目 配分比例
1 出席與討論 20%
2 作業 60%
3 期末考與期末分組專題 20%

教學進度

2月第1週 課程第1週
什麼是大數據?
什麼是大數據技術平台
大數據技術的應用

2月第2週 課程第2週
Hadoop介紹
Hadoop建置
Hadoop MapReduce實作

2月第3週 課程第3週
HBase HDFS介紹
Hadoop/HDFS HBase建置
Hadoop HDFS HBase 應用實作

2月第4週 課程第4週
大數據資料儲存概述
大數據的儲存平台簡介
如何儲存與管理大數據

3月第1週 課程第5週
Cloudera概敘
講解如何透過Cloudera使用多項大數據開源軟體
Cloudera應用實例介紹
Cloudera實際操作應用

3月第2週 課程第6週
實作爬蟲程式撰寫
資料欄位篩選
基礎網頁建置
運用網頁將資訊視覺化

3月第3週 課程第7週
巨量資料與視覺化概述
視覺化實例演示
資料庫建置
資料庫與視覺化工具的連結

3月第4週 課程第8週
NEXTCLOUD簡介
NEXTCLOUD私有雲建置
嫁接LAMP,PHP與NEXTCLOUD實作

4月第1週 課程第9週
ELK Stack簡介
Elasticsearch介紹
Logstash介紹
Kibana介紹
ELK環境建置
Elasticsearch資料收集、分析、儲存
Log資料分析、過濾應用
實作Kibana資料視覺化

4月第2週 課程第10週 期中考週
4月第3週 課程第11週 期中考週

4月第4週 課程第12週
FreeNAS與雲端儲存概述
FreeNAS系統建置
FreeNAS RAID實作
FreeNAS NFS實作

5月第1週 課程第13週
Spark概論
介紹Spark In-memory與Hadoop之差異
Spark建置
Spark程式實作
Spark RDD實作(以Scala撰寫)

5月第2週 課程第14週
介紹Weka
Weka建置
透過Weka進行簡易機器學習實例
以weather.nominal.arff 作為資料來源,實作機器學習演算法 C4.5、K-means、apriori

5月第3週 課程第15週
OwnCloud概述
透過OwnCloud做簡單的數據存取
OwnCloud應用實作-個人雲端儲存空間建置

5月第4週 課程第16週
期末專題分組報告

6月第1週 課程第17週 畢業典禮停課一次

6月第2週 課程第18週
期末專題分組報告

6月第3週 課程第19週 期末考週
6月第4週 課程第20週 期末考週
 

授課對象

 40人

無資料