介紹 小型標準數據集 Toy Datasets
這些是內置於 Scikit-learn 庫中的小型數據集,通常用於演示和測試基本的機器學習演算法。這些數據集的特點是數據量較小,加載快速,非常適合用於教學和快速原型開發。
主要的小型標準數據集包括:
- Iris(鳶尾花)數據集
- Digits(手寫數字)數據集
- Boston Housing(波士頓房價)數據集
- Breast Cancer Wisconsin(乳腺癌)數據集
- Wine(葡萄酒)數據集
- Linnerud 數據集
- Diabetes(糖尿病)數據集
應用
1. Iris(鳶尾花)數據集
- 包含 150 個樣本,每個樣本有四個特徵(萼片和花瓣的長度及寬度)
- 目標: 用於分類,將樣本分為三個鳶尾花種類之一
2. Digits(手寫數字)數據集
- 包含 1,797 個 8x8 像素的手寫數字圖像。
- 目標: 用於多類分類,識別圖像表示的數字(0到9)。
3. Boston Housing(波士頓房價)數據集
- 包含 506 個樣本和 13 個特徵,如犯罪率、房產稅率等。
- 目標: 用於迴歸分析,預測波士頓地區的房屋中位數價格。
4. Breast Cancer Wisconsin(威斯康辛乳腺癌)數據集
- 包含 569 個樣本和 30 個特徵,這些特徵從數字化的乳腺組織圖像中計算得出。
- 目標: 用於二元分類,預測乳腺腫瘤是良性還是惡性
5. Wine(葡萄酒)數據集
- 包含 178 個樣本和 13 個化學特徵,如酒精含量、蘋果酸含量等
- 目標: 用於多類分類,根據化學分析結果將葡萄酒分為三種類別之一
6. Linnerud 數據集
- 包含 20 個樣本,每個樣本有三個生理測量特徵(體重、腰圍、脈搏)和三個運動測量特徵(引體向上、仰臥起坐、跳遠)。
- 目標: 用於多輸出迴歸分析
7. Diabetes(糖尿病)數據集
- 包含 442 個樣本和 10 個生物學特徵,如年齡、性別、體重指數、平均血壓和六個血清指標。
- 目標: 用於迴歸分析,預測一年後病情發展的定量指標