《離語》第301章密碼(1)

作者：semaphore·7個月前

基於聚類的離散化假設我們有一個包含1000個房屋的價格資料的資料集，我們想將價格分5個簇，以下是離散化方法：首先，隨機分配5箇中心點。據每個房屋的價格和這5箇中心點的距離，將每個房屋分距離最近的中心點對應的簇中。重新計算每個簇的中心點，以中心點的座標作為新的中心點。重複步驟2和步驟3，直到中心點的移小於某個閾值或達到最大迭代次數。最終得到的5個簇即為我們需要的離散化結果。自適應離散化假設我們有一個包含個商品銷售量資料的資料集，我們想將銷售量離散化n個區間，以下是離散化方法：先將所有商品銷售量據大小排序。初始時，將資料集分n個區間，每個區間保持相等的資料數量。計算每個區間的範圍（最小值和最大值），並計算相鄰區間的範圍的中點，這些中點作為新的分割點。據新的分割點重新劃分區間，如果新的區間與原來的區間相同，則演算法停止。否則，重複步驟3和步驟4。最終得到的n個區間即為我們需要的離散化結果。卷積核輸出形狀卷積神經網路中的卷積層的輸出維度計算，可以過以下公式得出：輸出的高度 = (輸的高度 - 卷積核的高度 + 2 * padding) / 步長 + 1輸出的寬度 = (輸的寬度 - 卷積核的寬度 + 2 * padding) / 步長 + 1輸出的深度 = 卷積核的數量這裡，padding是指在輸資料周圍填充的0的行數或列數（在計算輸出大小時有助於保持空間尺寸不變），步長是指卷積核移的步數。輸出的深度直接取決於我們使用的卷積核的數量。輸資料大小為32 x 32大小單通道圖片，在C1卷積層使用6個大小為5 x 5的卷識核進行卷積，padding = 0，步長為1過6個大小為5 x 5的卷識核之後的輸出是多大尺寸的，怎麼用公式計算給定：輸的高度 H = 32；輸的寬度 W = 32；卷積核的高度 KH = 5；卷積核的寬度 KW = 5；卷積核的數量 K = 6；步長 S = 1；Padding P = 0據上述公式，我們可以計算出卷積後的輸出尺寸：輸出的高度 = (H - KH + 2P) / S + 1 = (32 - 5 + 2*0) / 1 + 1 = 28輸出的寬度 = (W - KW + 2P) / S + 1 = (32 - 5 + 2*0) / 1 + 1 = 28輸出的深度 = K = 6所以，過6個大小為5x5的卷積核後的輸出尺寸為 28x28x6。

留出法（Holdout thod）：基本思想：將原始資料集劃分為訓練集和測試集兩部分，其中訓練集用於模型訓練，而測試集則用於評估模型的效能。實施步驟：據比例或固定的樣本數量，隨機選擇一部分資料作為訓練集，剩餘部分用作測試集。優點：簡單快速；適用於大規模資料集。缺點：可能由於訓練集和測試集的不同導致結果的方差較高；對於小樣本資料集，留出的測試集可能不夠代表。2叉驗證法（Cross-Validation）：基本思想：將原始資料集劃分為K個大小相等的子集（折），其中K-1個子集用於訓練模型，剩下的1個子集用於測試模型，這個過程流進行K次，最後將K次實驗的結果綜合得到最終的評估結果。實施步驟：將資料集隨機劃分為K個子集，依次選擇每個子集作為驗證集，其餘子集作為訓練集，訓練模型並評估效能。重複這個過程K次，取K次實驗的平均值作為模型的效能指標。優點：更充分利用了資料；可以減小因樣本劃分不同而引起的方差。缺點：增加了計算開銷；在某些況下，對於特定劃分方式可能導致估計偏差。3自助取樣法（Bootstrapping）：基本思想：使用自助法從原始資料集中有放回地進行有偏複製取樣，得到一個與原始資料集大小相等的取樣集，再利用取樣集進行模型訓練和測試。實施步驟：從原始資料集中有放回地取樣本，形一個新的取樣集，然後使用取樣集進行模型訓練和測試。優點：適用於小樣本資料集，可以提供更多資訊；避免了留出法和叉驗證法中由於劃分過程引的變化。缺點：取樣集中約有36.8%的樣本未被採到，這些未被採到樣本也會對模型效能的評估產生影響；引了自助樣的隨機。拓展：選擇何種資料集劃分方法應據以下因素進行綜合考慮：1資料集大小：當資料集較大時，留出法能夠提供足夠的訓練樣本和測試樣本，而且計算開銷相對較小。當資料集較小時，叉驗證法和自助取樣法能更好地利用資料。

2計算資源和時間限制：叉驗證需要多次訓練模型並評估效能，所以會增加計算開銷；自助取樣法則需要從原始資料集中進行有放回的取樣，可能導致計算本上升。如果計算資源和時間有限，留出法可能是更可行的選擇。3資料集特點：如果資料集有一定的時序，建議使用留出法或時間視窗叉驗證，確保訓練集和測試集在時間上是連續的。如果資料集中存在明顯的類別不平衡問題，可以考慮使用分層樣的叉驗證來保持類別比例的一致。4評估結果穩定要求：叉驗證可以提供多個實驗的平均結果，從而減由於隨機劃分帶來的方差。如果對評估結果的穩定要求較高，叉驗證是一個不錯的選擇。總而言之，沒有一種資料集劃分方法適用於所有況。選擇合適的方法應據問題的需求、資料集的大小以及可用的資源和時間來進行綜合考慮，並在實踐中進行實驗比較以找到最佳的劃分方式。2、請列舉模型效果評估中準確、穩定和可解釋的指標。1準確：準確率（Accuracy）：預測正確的樣本數量與總樣本數量的比例。確率（Precision）：預測為正類的樣本中，真實為正類的比例。召回率（Recall）：真實為正類的樣本中，被模型預測為正類的比例。F1值（F1-Score）：綜合考慮了確率和召回率的調和平均，適用於評價二分類模型的效能。2穩定：方差（Variance）：指模型在不同資料集上效能的波程度，方差越大說明模型的穩定越低。叉驗證（Cross Validation）：過將資料集劃分為多個子集，在每個子集上訓練和評估模型，然後對結果進行平均，可以提供模型效能的穩定估計。3可解釋：特徵重要（Feature Iortance）：用於衡量特徵對模型預測結果的貢獻程度，常用的方法包括基於樹模型的特徵重要（如Gini Iortance和Pertation Iortance）以及線模型的係數。4視覺化（Visualization）：過視覺化模型的結構、權重或決策邊界等，幫助解釋模型的預測過程和影響因素。5 SHAP值（SHapley Additive exPlanations）：一種用於解釋特徵對預測結果的貢獻度的方法，提供了每個特徵對最終預測結果的影響大小。這些指標能夠在評估模型效果時提供關於準確、穩定和可解釋的資訊，但選擇哪些指標要據任務和需求進行綜合考慮。