Гістограма спрямованих градієнтів

Ви можете допомогти проекту, закінчивши переклад.

Гістограма спрямованих градієнтів (англ. Histogram of Oriented Gradients, HOG) - дескриптори особливих точок, які використовуються в комп'ютерному зорі і обробці зображень з метою розпізнавання об'єктів. Дана техніка заснована на підрахунку кількості напрямків градієнта в локальних областях зображення. Цей метод схожий на гістограми напрямки краю. дескриптори SIFT і контексти форми. але відрізняється тим, що обчислюється на щільної сітці рівномірно розподілених осередків і використовує нормалізацію перекривати локального контрасту для збільшення точності.

Теорія [ред]

Основною ідеєю алгоритму є припущення, що зовнішній вигляд і форма об'єкта на ділянці зображення можуть бути описані розподілом градієнтів інтенсивності або напрямком країв. Реалізація цих дескрипторів може бути проведена шляхом поділу зображення на маленькі зв'язкові області, іменовані осередками, і розрахунком для кожного осередку гістограми напрямків градієнтів або напрямків країв для пікселів, що знаходяться всередині осередку. Комбінація цих гістограм і є дескриптором. Для збільшення точності локальні гістограми піддаються нормалізації по контрасту. З цією метою обчислюється міра інтенсивності на більшій фрагменті зображення, який називається блоком, і отримане значення використовується для нормалізації. Нормалізовані дескриптори мають кращу инвариантностью по відношенню до висвітлення.

Дескриптор HOG має кілька переваг над іншими дескрипторами. Оскільки HOG працює локально, метод підтримує инвариантность геометричних і фотометричних перетворень, за винятком орієнтації об'єкта. Подібні зміни з'являться тільки в бо'льшую фрагментах зображення. Більш того, як виявили дала і Тріггс, грубе розбиття простору, точне обчислення напрямків і сильна локальна фотометрична нормалізація дозволяють ігнорувати руху пішоходів, якщо вони підтримують вертикальне положення тіла. Дескриптор HOG, таким чином, є хорошим засобом знаходження людей на зображеннях. [1]

Реалізація алгоритму [ред]

Обчислення градієнта [ред]

Першим кроком обчислень у багатьох детекторах особливих точок є нормалізація кольору і гамма-корекція. Дала і Тріггс встановили, що для дескриптора HOG цей крок можна опустити, оскільки подальша нормалізація дасть той же результат. Тому на першому етапі розраховуються значення градієнтів. Найпоширенішим методом є застосування одновимірної диференціює маски в горизонтальному і / або вертикальному напрямку. Цей метод вимагає фільтрації колірної або складової яскравості за допомогою наступних фільтруючих ядер:

Дала і Тріггс використовували більш складні маски, такі як Собел 3x3 (Оператор Собеля) або діагональні маски, але ці маски показали нижчу продуктивність для даного завдання. Вони також експериментували з розмиванням по Гауса перед застосуванням диференціює маски, але також виявили, що пропуск цього кроку збільшує швидкодію без помітної втрати якості. [2]

Угруповання напрямків [ред]

На наступному кроці обчислюються гістограми осередків. Кожен піксель в осередку бере участь в підвішеному голосуванні для каналів гістограми напрямків, заснованому на значенні градієнтів. Осередки можуть бути прямокутної або круглої форми, канали гістограми рівномірно розподіляються від 0 до 180 або ж від 0 до 360 градусів, в залежності від того, обчислюється «знаковий» або «беззнаковий градієнт». Дала і Тріггс виявили, що беззнаковий градієнт спільно з дев'ятьма каналами гістограми дає кращі результати при розпізнаванні людей. При розподілі ваг в голосуванні вага пікселя може задаватися або абсолютним значенням градієнта, або деякою функцією від нього; в реальних тестах абсолютне значення градієнта дає кращі результати. Іншими можливими варіантами можуть бути квадратний корінь, квадрат або урізане абсолютне значення градієнта. [3]

Блоки дескрипторів [ред]

Для прийняття до уваги яскравості і контрастності градієнти слід локально нормувати, для чого осередку потрібно згрупувати в більш великі зв'язкові блоки. Дескриптор HOG, таким чином, є вектором компонент нормованих гістограм осередків з усіх областей блоку. Як правило, блоки перекриваються, тобто кожен осередок входить більш ніж в один кінцевий дескриптор. Використовуються дві основні геометрії блоку: прямокутні R-HOG і круглі C-HOG. Блоки R-HOG зазвичай є квадратними сітками, що характеризуються трьома параметрами: кількістю осередків на блок, кількістю пікселів на осередок і кількістю каналів на гістограму осередки. В експерименті дала і Тріггса оптимальними параметрами є блоки 16x16, осередки 8x8 і 9 каналів на гістограму. Більш того, вони виявили, що можна злегка підвищити швидкість обчислень, застосовуючи гаусів фільтр всередині кожного блоку до процедури голосування, що, в свою чергу, знижує вагу пікселів на кордонах блоків. Блоки R-HOG виявляються дуже схожими на SIFT-дескриптори; однак, незважаючи на їх схожу структуру, блоки R-HOG обчислюються на щільних сітках фіксованого масштабу без фіксованого напрямку, в той час як SIFT-дескриптори обчислюються в розріджених, що не чутливих до масштабу ключових точках зображення і використовують поворот для вирівнювання напрямки. Крім того, для кодування інформації про форму об'єктів блоки R-HOG використовуються спільно, в той час як SIFT-дескриптори використовуються окремо.

Блоки C-HOG мають 2 різновиди: з цільної центральної осередком і розділеної на сектори. Ці блоки можуть бути описані 4 параметрами: кількість секторів і кілець, радіус центрального кільця і ​​коефіцієнт розширення для радіусів інших кілець. Дала і Тріггс виявили, що обидва різновиди показали однаковий результат, і поділ на 2 кільця і ​​4 сектори з радіусом 4 пікселя і коефіцієнтом розширення 2 дало кращий результат в їхньому експерименті. Крім того, гауссово зважування не дало ніяких поліпшень при використанні блоків C-HOG. Ці блоки схожі на контексти форми. але мають важливе відмінність: блоки C-HOG містять осередки з декількома каналами напрямків, в той час як контексти форми використовують тільки наявність одного краю. [4]

Нормалізація блоків [ред]

Дала і Тріггс досліджували чотири методи нормалізації блоків. Нехай - ненормований вектор, що містить всі гістограми даного блоку, - його k-норма при і - якась мала константа (точне значення не так важливо). Тоді нормувальний множник можна отримати одним із таких способів:

L2-норма: L2-hys: L2-норма обмежується зверху (значення v, більші 0,2, покладаються рівними 0,2) і перенорміруется, як в [5] L1-норма: корінь з L1-норми:

Дала і Тріггс встановили, що L1-норма дає менш надійні результати, ніж інші три, які працюють приблизно однаково добре, проте всі чотири методу значно покращують результати в порівнянні з ненормалізованих. [4]

SVM-класифікатор [ред]

Кінцевим кроком в розпізнаванні об'єктів з використанням HOG є класифікація дескрипторів за допомогою системи навчання з учителем. Дала і Тріггс використовували метод опорних векторів (SVM, Support Vector Machine).

Тестування [ред]

За результатами досліджень, дескриптори C-HOG і R-HOG дають порівнянні результати, причому C-HOG мають дещо меншу частку пропущених зображень при фіксованій частці помилок першого роду на обох наборах зображень.

Частка пропущених зображень

За наступним посиланням можна знайти відповідний графік DET. [2]

Подальший розвиток [ред]

Див. Також [ред]

Примітки [ред]

[Ред]

Для поліпшення цієї статті бажано? :

Схожі статті