Алгоритм К-средних

Метод K-средних – это метод кластерного анализа, целью которого является разделение m наблюдений на k кластеров, при этом каждое наблюдение относится к тому кластеру, к центу (центроиду) которого оно ближе всего.

Назначение. С помощью онлайн-калькулятора можно проводить классификацию объектов методом К-средних с построением дендрограммы (например, для построения типологической группировки).

Инструкция. Укажите количество данных, нажмите Далее. Полученное решение сохраняется в файле Word.

Скачать пример оформления

Алгоритм разделительной кластеризации, основан на разбиении множества элементов векторного пространства на заранее определенное число кластеров k. Метод относится к неирархическим алгоритмам кластеризации. Алгоритм представляет собой итерационную процедуру:

Выбирается число кластеров k.
Из исходного множества данных случайным образом выбираются k записей, которые будут служить начальными центрами кластеров.
Для каждой записи исходной выборки определяется ближайший к ней центр кластера. При этом записи, «притянутые» определенным центром, образуют начальные кластеры.
Вычисляются центроиды – центры тяжести кластеров. Каждый центроид – это вектор, элементы которого представляют собой средние значения признаков, вычисленные по всем записям кластера. Затем центр кластера смещается в его центроид.

Процесс итерации прекращается, когда границы кластеров не перестанут изменяться от итерации к итерации, т.е. на каждой итерации в каждом кластере будет оставаться один и тот же набор записей.

Достоинства алгоритма k-средних:

простота реализации;
интуитивная понятность и прозрачность алгоритма;

Недостатки алгоритма k-средних:

число кластеров надо знать заранее;
зависимость результата от инициализации центров кластеров;
вычислительная сложность;

Пример №1. По данной выше таблице провести классификацию объектов на три класса методом К-средних. Провести максимальное число итераций. Эталонные точки и порядок появления точек задать самостоятельно. Отобразить на плоскости по лученный вариант классификации.

Объекты	A	B	C	D	E	F
признак-X	–2	–2	–3	4	3	0
признак-Y	0	–1	0	0	0	0

Сравниваем расстояние от точки E до эталонных точек.

Минимальным является расстояние d(Ee₁)
Пересчитываем значения для эталонной точки e₁: (3+1)/2 = 2;(0+0)/2 = 0;
Сравниваем расстояние от точки F до эталонных точек.

Минимальным является расстояние d(Fe₁)
Пересчитываем значения для эталонной точки e₁: (0+2)/2 = 1;(0+0)/2 = 0;
Произведём классификацию объектов:

Объект A ближе всех расположен к эталонной точке e₂.

Объект B ближе всех расположен к эталонной точке e₂.

Объект C ближе всех расположен к эталонной точке e₃.

Объект D ближе всех расположен к эталонной точке e₁.

Объект E ближе всех расположен к эталонной точке e₁.

Объект F ближе всех расположен к эталонной точке e₁.

e₁	e₂	e₃
DEF	AB	C

Итерация №1
Сравниваем расстояние от точки A до эталонных точек.

Минимальным является расстояние d(Ae₂)
Пересчитываем значения для эталонной точки e₂: (-2+(-2))/2 = -2;(0+(-1))/2 = -0.5;
Сравниваем расстояние от точки B до эталонных точек.

Минимальным является расстояние d(Be₂)
Пересчитываем значения для эталонной точки e₂: (-2+(-2))/2 = -2;(-1+(-0.5))/2 = -0.75;
Сравниваем расстояние от точки D до эталонных точек.

Минимальным является расстояние d(De₁)
Пересчитываем значения для эталонной точки e₁: (4+1)/2 = 2.5;(0+0)/2 = 0;
Сравниваем расстояние от точки E до эталонных точек.

Минимальным является расстояние d(Ee₁)
Пересчитываем значения для эталонной точки e₁: (3+2.5)/2 = 2.75;(0+0)/2 = 0;
Сравниваем расстояние от точки F до эталонных точек.

Минимальным является расстояние d(Fe₂)
Пересчитываем значения для эталонной точки e₂: (0+(-2))/2 = -1;(0+(-0.75))/2 = -0.375;
Произведём классификацию объектов:

Объект A ближе всех расположен к эталонной точке e₃.

Объект B ближе всех расположен к эталонной точке e₂.

Объект C ближе всех расположен к эталонной точке e₃.

Объект D ближе всех расположен к эталонной точке e₁.

Объект E ближе всех расположен к эталонной точке e₁.

Объект F ближе всех расположен к эталонной точке e₂.

e₁	e₂	e₃
DE	BF	AC

Границы кластеров изменились, продолжаем процесс разбиения.
Итерация №2
Сравниваем расстояние от точки A до эталонных точек.

Минимальным является расстояние d(Ae₃)
Пересчитываем значения для эталонной точки e₃: (-2+(-3))/2 = -2.5;(0+0)/2 = 0;
Сравниваем расстояние от точки B до эталонных точек.

Минимальным является расстояние d(Be₃)
Пересчитываем значения для эталонной точки e₃: (-2+(-2.5))/2 = -2.25;(-1+0)/2 = -0.5;
Сравниваем расстояние от точки C до эталонных точек.

Минимальным является расстояние d(Ce₃)
Пересчитываем значения для эталонной точки e₃: (-3+(-2.25))/2 = -2.625;(0+(-0.5))/2 = -0.25;
Сравниваем расстояние от точки D до эталонных точек.

Минимальным является расстояние d(De₁)
Пересчитываем значения для эталонной точки e₁: (4+2.75)/2 = 3.375;(0+0)/2 = 0;
Сравниваем расстояние от точки E до эталонных точек.

Минимальным является расстояние d(Ee₁)
Пересчитываем значения для эталонной точки e₁: (3+3.375)/2 = 3.1875;(0+0)/2 = 0;
Сравниваем расстояние от точки F до эталонных точек.

Минимальным является расстояние d(Fe₂)
Пересчитываем значения для эталонной точки e₂: (0+(-1))/2 = -0.5;(0+(-0.375))/2 = -0.1875;
Произведём классификацию объектов:

Объект A ближе всех расположен к эталонной точке e₃.

Объект B ближе всех расположен к эталонной точке e₃.

Объект C ближе всех расположен к эталонной точке e₃.

Объект D ближе всех расположен к эталонной точке e₁.

Объект E ближе всех расположен к эталонной точке e₁.

Объект F ближе всех расположен к эталонной точке e₂.

e₁	e₂	e₃
DE	F	ABC

Границы кластеров изменились, продолжаем процесс разбиения.
Итерация №3
Сравниваем расстояние от точки A до эталонных точек.

Минимальным является расстояние d(Ae₃)
Пересчитываем значения для эталонной точки e₃: (-2+(-2.625))/2 = -2.3125;(0+(-0.25))/2 = -0.125;
Сравниваем расстояние от точки B до эталонных точек.

Минимальным является расстояние d(Be₃)
Пересчитываем значения для эталонной точки e₃: (-2+(-2.3125))/2 = -2.15625;(-1+(-0.125))/2 = -0.5625;
Сравниваем расстояние от точки C до эталонных точек.

Минимальным является расстояние d(Ce₃)
Пересчитываем значения для эталонной точки e₃: (-3+(-2.15625))/2 = -2.578125;(0+(-0.5625))/2 = -0.28125;
Сравниваем расстояние от точки D до эталонных точек.

Минимальным является расстояние d(De₁)
Пересчитываем значения для эталонной точки e₁: (4+3.1875)/2 = 3.59375;(0+0)/2 = 0;
Сравниваем расстояние от точки E до эталонных точек.

Минимальным является расстояние d(Ee₁)
Пересчитываем значения для эталонной точки e₁: (3+3.59375)/2 = 3.296875;(0+0)/2 = 0;
Сравниваем расстояние от точки F до эталонных точек.

Минимальным является расстояние d(Fe₂)
Пересчитываем значения для эталонной точки e₂: (0+(-0.5))/2 = -0.25;(0+(-0.1875))/2 = -0.09375;
Произведём классификацию объектов:

Объект A ближе всех расположен к эталонной точке e₃.

Объект B ближе всех расположен к эталонной точке e₃.

Объект C ближе всех расположен к эталонной точке e₃.

Объект D ближе всех расположен к эталонной точке e₁.

Объект E ближе всех расположен к эталонной точке e₁.

Объект F ближе всех расположен к эталонной точке e₂.

e₁	e₂	e₃
DE	F	ABC

Границы кластеров не изменились, т.е. в каждом кластере будет остается один и тот же набор записей. Останавливаем процесс кластеризации.

Пример №2. Даны четыре объекта, каждый определяется двумя признаками. Разбить объекты на три кластера методом k-средних. Первоначально первые три объекта образуют начальные кластеры, метрика – квадрат евклидова расстояния: X1(2;3), Х2(3;2), Х3(7;3), Х4 (5;-3).

Алгоритм К-средних

Правила ввода данных

Поиск

Процесс

Сообщение

Подключить услуги