В машинному навчанні, розпізнаванні образів та в обробці зображень виділя́ння озна́к (англ. feature extraction) починається з первинного набору даних вимірювань, і будує похідні значення (ознаки), покликані бути інформативними та ненадлишковими, полегшувати наступні кроки навчання та узагальнення, і в деяких випадках вести до кращих тлумачень людьми. Виділяння ознак пов'язане зі зниженням розмірності.
Коли вхідні дані алгоритму є занадто великими, щоби їх можливо було обробити, і підозрюються на надлишковість (наприклад, одні й ті самі вимірювання як у метрах, так і в футах, або повторюваності в зображеннях, представлених пікселями), тоді їх може бути перетворено на скорочений набір ознак (що також називають вектором ознак). Визначення підмножини початкових ознак називають обиранням ознак.[1] Очікується, що обрані ознаки містять доречну інформацію з вхідних даних, так що бажане завдання може бути виконано із застосуванням цього скороченого представлення замість повних первинних даних.
Загальне
Виділяння ознак включає зниження числа ресурсів, необхідних для опису великого набору даних. При виконанні аналізу складних даних одна з головних проблем випливає з кількості залучених змінних. Аналіз із великою кількістю змінних в загальному випадку вимагає великої кількості пам'яті та обчислювальних потужностей, а також він може спричинювати перенавчання алгоритмів класифікації тренувальних зразків, і поганого узагальнювання на нові зразки. Виділяння ознак є загальним терміном для позначення методів побудови таких поєднань змінних, щоби обходити ці проблеми, зберігаючи достатню точність опису даних. Багато практиків машинного навчання вважають, що належно оптимізоване виділяння ознак є запорукою ефективної побудови моделі.[2]
Результати може бути покращено шляхом застосування сконструйованих наборів залежних від конкретного застосування ознак, що зазвичай будує експерт. Один з таких процесів називають конструюванням ознак. Або ж застосовують загальні методики зниження розмірності, такі як:
- Метод незалежних компонент[en]
- Ізовідображення[en]
- Ядровий МГК[en]
- Приховано-семантичний аналіз
- Частинні найменші квадрати[en]
- Метод головних компонент
- Зниження багаточинникової розмірності[en]
- Нелінійне зниження розмірності[en]
- Полілінійний метод головних компонент[en]
- Навчання полілінійного підпростору[en]
- Напіввизначене вкладення[en]
- Автокодувальник
Обробка зображень
Однією з дуже важливих областей застосування є обробка зображень, у якій застосовують алгоритми для виявляння та виокремлювання різних бажаних частин або фігур (ознак) оцифрованого зображення або потоку відео. Це особливо важливо в області оптичного розпізнавання символів.
Низькорівнева
- Виявляння контурів
- Виявляння кутів
- Виявляння плям
- Виявляння хребтів
- Масштабоінваріантне ознакове перетворення
Кривина
- Напрямок контурів, зміна яскравості, самокореляція.
Рух зображення
- Виявляння руху. На основі областей, різничний підхід. Оптичний потік.
На основі фігур
- Порогова класифікація
- Виділяння плям[en]
- Порівнювання з шаблоном[en]
- Перетворення Гафа
- Прямих
- Кіл/еліпсів
- Довільних форм (узагальнене перетворення Хафа)
- Працює з будь-якою ознакою, яку можливо параметризувати (змінні класу, виявлення кластерів тощо)
- Узагальнене перетворення Гафа
Гнучкі методи
- Параметризовані фігури, що піддаються деформації
- Активні контури (змії)
Виділяння ознак у програмному забезпеченні
Багато програмних пакетів аналізу даних[en] забезпечують виявляння ознак та зниження розмірності. Поширені середовища чисельного програмування, такі як MATLAB, SciLab, NumPy та мова програмування R, забезпечують деякі з простіших методик виявляння ознак (наприклад, метод головних компонент) через вбудовані команди. Більш специфічні алгоритми є часто доступними як загальнодоступні сценарії або додатки від третіх сторін. Існують також програмні пакети, націлені на конкретні програмні застосування машинного навчання, що спеціалізуються на виділянні ознак.[3]
Див. також
- Кластерний аналіз
- Зниження розмірності
- Виявляння ознак
- Вибирання ознак
- Добування даних
- Мічення зв'язаних складових[en]
- Сегментування зображення
- Відображення простору[en]
- Динамічна текстура[en]
Примітки
- ↑ Alpaydin, Ethem (2010). Introduction to Machine Learning. London: The MIT Press. с. 110. ISBN 978-0-262-01243-0. Архів оригіналу за 23 березня 2019. Процитовано 4 лютого 2017. (англ.)
- ↑ Its all about the features. Reality AI Blog. Вересень 2017. Архів оригіналу за 18 серпня 2019. Процитовано 18 серпня 2019. (англ.)
- ↑ Див., наприклад, https://reality.ai/ [Архівовано 25 березня 2021 у Wayback Machine.]