un1t. цю процедуру можна робити по різному. Найпростіший варіант - відняти середнє і розділити на різницю між максимальним значенням і мінімальним. Але він поганий тим, що в разі випадкового викиду (наприклад, для першої змінної з'явилася точка зі значенням 1000) такого роду обробка буде не вдалою.
Другий варіант - забрати середнє і поділити на стандартне відхилення. Цей спосіб більш стійкий до викидів. Але все одно середнє значення і стандартне відхилення чутливі до викидів.
Третій варіант (робастних нормалізація) - відняти медіану і поділити на різницю між третім і першим квартилями. Такий варіант практично зводить нанівець вплив викидів.
Хочеться трохи поправити. В метричних методах, як це було зазначено вище, ознаки потрібно нормалізувати (наводимо до діапазону [0; 1]), щоб вони вносили однаковий внесок.
У лінійних моделях (SVM до них відноситься) ознаки потрібно стандартизувати (відняти середнє і поділити на стандартне відхилення, щоб середнє стало нульовим, а стандартне відхилення одиницею). Тому що:
Одне з найбільш важливих припущень при роботі з лінійними моделями, параметри яких оцінюються методом найменших квадратів, полягає в тому, що залишки моделі незалежні (тобто не корелюють) і мають нормальний розподіл із середнім значенням 0 і деяким фіксованим стандартним відхиленням σεσε, т . Е. ε_i~N (0, σ).
Діагностика лінійних регресійних моделей. Частина 1