大數據資料集及其應用

大數據資料集



高雄市政府資料開放
高雄市政府各機關組織開放資料及其應用

====================
政府資料開放平臺
國家層級之開放資料庫,類型多且齊全,其資料故事館之活化應用區,有多種資料應用方式範例

====================
國家實驗研究院 國家高速網路與計算中心 資料集平台
有影像、聲音資料集,偏機器學習(網站容易出錯、需多重載幾次)

====================
人工智慧共創平台
與產業界合作、並有競賽項目,學用合一典範

====================
UC Irvine Machine Learning Repository
國內外學者承認之機器學習資料集,各式資料均齊備,學術論文發表亦常以此資料集做為實驗資料來源




小數據分析


● 準備【分析工具箱】
1.Excel開新檔=>
2.【檔案】=>
3.【選項】=>
4.【增益集】=>
5.【Excel增益集】=>
6.【執行】=>
7.勾選【分析工具箱】

上述動作會在資料頁籤右方加入【資料分析】功能
====================

● 試著做一張小資料表【員工薪資表】試試…
1.欄位【員工姓名、員工代號、工作時數、遲到分鐘、犯錯次數、隨機亂數、合計薪資】
2.【員工姓名】用個人本名加以變化,至少三名
3.【員工代號】用數字1~n代表即可
4.【工作時數】當週工作時數,亂數30~60,每員工至少10筆
5.【遲到分鐘】當週遲到分鐘,亂數0~60,配合【工作時數】筆數
6.【犯錯次數】當週犯錯次數,亂數0~10,配合【工作時數】筆數
7.【隨機亂數】就是個來搗亂的數字,亂數0~100,配合【工作時數】筆數
8.【合計薪資】當週薪資,【時薪*工作時數-5*遲到分鐘-50*犯錯次數】

可設定三人時薪不同,如150、120、180之類,但記得同一人的時薪要相同…

☆請另加三個欄位,【十倍錯、百倍錯、平方錯】,分別是【犯錯次數】的十倍、百倍及平方,以便了解資料與資料間關係的趨勢圖。

====================

● 畫出【合計薪資】與各欄位項目間的XY散佈圖,理解其基本關係
1.選定【合計薪資】及另一欄位(可用【ctrl】鍵選取不連續欄位)
2.【插入】頁籤=>【圖表】群=>【插入XY散佈圖】

可加入趨勢線、檢視兩者是否有線性關係?
可進入趨勢線的其他選項,看看多項式,冪次多寡跟R平方值(有多少點落在預測線上)有何關係?
====================

● 看看欄位間的【敘述統計】,這代表了什麼?
1.【資料】頁籤=>【分析】群=>【資料分析】=>【敘述統計】
2.【輸入範圍】:除【員工姓名】欄外的所有表格範圍
3.【分組方式】:逐欄
4.【類別軸標記是在第一欄上】:勾選
5.【輸出選項】:新工作表


這些項目資料、代表了什麼?
====================

● 看看欄位間的【相關係數】,這代表了什麼?
1.【資料】頁籤=>【分析】群=>【資料分析】=>【相關係數】
2.【輸入範圍】:除【員工姓名】欄外的所有表格範圍
3.【分組方式】:逐欄
4.【類別軸標記是在第一欄上】:勾選
5.【輸出選項】:新工作表

兩欄位間的相關係數絕對值愈接近1,表示兩者愈相關,正負數代表正負相關(此長彼長 or 此消彼長)
====================

● 【相關係數】插播
Q:不同族群間(男/女;少/青/壯/老;士/農/工/商;金/木/水/火/土)、對某問項的選擇(甜度:無糖/微糖/半糖/正常/加倍)是否不同,可以看相關係數嗎?

A:由於相關係數只能使用"數值"來計算,甜度尚可改為(0/0.2/0.5/1/2),但不具大小關係的族群則無固定轉換方式,勉強可行方式為依序標號(1/2/3/4/…)之類,但依族群標號順序不同,本來有關係之族群與問項,在相關係數中可能呈現較低之數值!因此,若欲討論族群間的選擇是否有"顯著差異"?,應當改用【單因子變異數分析】
1.請將各族群答案依欄分列整理資料
2.【資料】頁籤=>【分析】群=>【資料分析】=>【單因子變異數分析】
3.【輸入範圍】:族群答案各欄(例如在本例中、將薪資依不同人分成三欄)
4.【分組方式】:逐欄
5.【類別軸標記是在第一欄上】:勾選
6.【輸出選項】:新工作表


出來的表只要看ANOVA的P-值即可,愈小表示差異愈顯著,(α<0.05/0.01)
====================

● 所以這些欄位跟最後的【合計薪資】是不是存在一個公式計算?(以線性迴歸為例)
1.【資料】頁籤=>【分析】群=>【資料分析】=>【迴歸】
2.【輸入Y範圍】:即目標欄位,本例中是【合計薪資】
3.【輸入X範圍】:可能跟【合計薪資】有關的所有數字形式欄位
4.【標記】:勾選
5.【輸出選項】:新工作表
6.【其他未提選項】:可以不用理

輸出表格意義懶得寫,課堂中再解釋或參考Linear regression analysis in Excel
Tips:若想做多項式迴歸,可自行新增各變數之平方、三方或以上之欄位,甚而使用各變數相乘等等之變化變數…