基於聚類的離散化假設我們有一個包含1000個房屋的價格資料的資料集,我們想將價格分5個簇,以下是離散化方法:首先,隨機分配5箇中心點。據每個房屋的價格和這5箇中心點的距離,將每個房屋分距離最近的中心點對應的簇中。重新計算每個簇的中心點,以中心點的座標作為新的中心點。重複步驟2和步驟3,直到中心點的移小於某個閾值或達到最大迭代次數。最終得到的5個簇即為我們需要的離散化結果。自適應離散化假設我們有一個包含個商品銷售量資料的資料集,我們想將銷售量離散化n個區間,以下是離散化方法:先將所有商品銷售量據大小排序。初始時,將資料集分n個區間,每個區間保持相等的資料數量。計算每個區間的範圍(最小值和最大值),並計算相鄰區間的範圍的中點,這些中點作為新的分割點。據新的分割點重新劃分區間,如果新的區間與原來的區間相同,則演算法停止。否則,重複步驟3和步驟4。最終得到的n個區間即為我們需要的離散化結果。卷積核輸出形狀卷積神經網路中的卷積層的輸出維度計算,可以過以下公式得出:輸出的高度 = (輸的高度 - 卷積核的高度 + 2 * padding) / 步長 + 1輸出的寬度 = (輸的寬度 - 卷積核的寬度 + 2 * padding) / 步長 + 1輸出的深度 = 卷積核的數量這裡,padding是指在輸資料周圍填充的0的行數或列數(在計算輸出大小時有助於保持空間尺寸不變),步長是指卷積核移的步數。輸出的深度直接取決於我們使用的卷積核的數量。輸資料大小為32 x 32大小單通道圖片,在C1卷積層使用6個大小為5 x 5的卷識核進行卷積,padding = 0,步長為1過6個大小為5 x 5的卷識核之後的輸出是多大尺寸的,怎麼用公式計算給定:輸的高度 H = 32;輸的寬度 W = 32;卷積核的高度 KH = 5;卷積核的寬度 KW = 5;卷積核的數量 K = 6;步長 S = 1;Padding P = 0據上述公式,我們可以計算出卷積後的輸出尺寸:輸出的高度 = (H - KH + 2P) / S + 1 = (32 - 5 + 2*0) / 1 + 1 = 28輸出的寬度 = (W - KW + 2P) / S + 1 = (32 - 5 + 2*0) / 1 + 1 = 28輸出的深度 = K = 6所以,過6個大小為5x5的卷積核後的輸出尺寸為 28x28x6。
留出法(Holdout thod):基本思想:將原始資料集劃分為訓練集和測試集兩部分,其中訓練集用於模型訓練,而測試集則用於評估模型的效能。實施步驟:據比例或固定的樣本數量,隨機選擇一部分資料作為訓練集,剩餘部分用作測試集。優點:簡單快速;適用於大規模資料集。缺點:可能由於訓練集和測試集的不同導致結果的方差較高;對於小樣本資料集,留出的測試集可能不夠代表。2叉驗證法(Cross-Validation):基本思想:將原始資料集劃分為K個大小相等的子集(折),其中K-1個子集用於訓練模型,剩下的1個子集用於測試模型,這個過程流進行K次,最後將K次實驗的結果綜合得到最終的評估結果。實施步驟:將資料集隨機劃分為K個子集,依次選擇每個子集作為驗證集,其餘子集作為訓練集,訓練模型並評估效能。重複這個過程K次,取K次實驗的平均值作為模型的效能指標。優點:更充分利用了資料;可以減小因樣本劃分不同而引起的方差。缺點:增加了計算開銷;在某些況下,對於特定劃分方式可能導致估計偏差。3自助取樣法(Bootstrapping):基本思想:使用自助法從原始資料集中有放回地進行有偏複製取樣,得到一個與原始資料集大小相等的取樣集,再利用取樣集進行模型訓練和測試。實施步驟:從原始資料集中有放回地取樣本,形一個新的取樣集,然後使用取樣集進行模型訓練和測試。優點:適用於小樣本資料集,可以提供更多資訊;避免了留出法和叉驗證法中由於劃分過程引的變化。缺點:取樣集中約有36.8%的樣本未被採到,這些未被採到樣本也會對模型效能的評估產生影響;引了自助樣的隨機。拓展:選擇何種資料集劃分方法應據以下因素進行綜合考慮:1資料集大小:當資料集較大時,留出法能夠提供足夠的訓練樣本和測試樣本,而且計算開銷相對較小。當資料集較小時,叉驗證法和自助取樣法能更好地利用資料。
2計算資源和時間限制:叉驗證需要多次訓練模型並評估效能,所以會增加計算開銷;自助取樣法則需要從原始資料集中進行有放回的取樣,可能導致計算本上升。如果計算資源和時間有限,留出法可能是更可行的選擇。3資料集特點:如果資料集有一定的時序,建議使用留出法或時間視窗叉驗證,確保訓練集和測試集在時間上是連續的。如果資料集中存在明顯的類別不平衡問題,可以考慮使用分層樣的叉驗證來保持類別比例的一致。4評估結果穩定要求:叉驗證可以提供多個實驗的平均結果,從而減由於隨機劃分帶來的方差。如果對評估結果的穩定要求較高,叉驗證是一個不錯的選擇。總而言之,沒有一種資料集劃分方法適用於所有況。選擇合適的方法應據問題的需求、資料集的大小以及可用的資源和時間來進行綜合考慮,並在實踐中進行實驗比較以找到最佳的劃分方式。2、請列舉模型效果評估中準確、穩定和可解釋的指標。1準確:準確率(Accuracy):預測正確的樣本數量與總樣本數量的比例。確率(Precision):預測為正類的樣本中,真實為正類的比例。召回率(Recall):真實為正類的樣本中,被模型預測為正類的比例。F1值(F1-Score):綜合考慮了確率和召回率的調和平均,適用於評價二分類模型的效能。2穩定:方差(Variance):指模型在不同資料集上效能的波程度,方差越大說明模型的穩定越低。叉驗證(Cross Validation):過將資料集劃分為多個子集,在每個子集上訓練和評估模型,然後對結果進行平均,可以提供模型效能的穩定估計。3可解釋:特徵重要(Feature Iortance):用於衡量特徵對模型預測結果的貢獻程度,常用的方法包括基於樹模型的特徵重要(如Gini Iortance和Pertation Iortance)以及線模型的係數。4視覺化(Visualization):過視覺化模型的結構、權重或決策邊界等,幫助解釋模型的預測過程和影響因素。5 SHAP值(SHapley Additive exPlanations):一種用於解釋特徵對預測結果的貢獻度的方法,提供了每個特徵對最終預測結果的影響大小。這些指標能夠在評估模型效果時提供關於準確、穩定和可解釋的資訊,但選擇哪些指標要據任務和需求進行綜合考慮。








