
Пэн Си из A * STAR Institute for Infocomm Research отмечает, что эту структуру можно использовать для множества приложений, включая сегментацию изображений, сегментацию движения, кластеризацию данных, идентификацию гибридных систем и представление изображений.
Обычный способ обработки данных компьютерами называется обучением по представлениям. Это включает в себя определение функции, которая позволяет программе быстро извлекать соответствующую информацию из набора данных и классифицировать ее — что-то вроде ярлыка.
Обучение с учителем и обучение без учителя — два основных метода, используемых в репрезентативном обучении. В отличие от обучения с учителем, которое основывается на дорогостоящей маркировке данных перед обработкой, обучение без учителя включает группировку или «кластеризацию» данных аналогично нашему мозгу, — объясняет Пэн.
Подпространственная кластеризация — это форма обучения без учителя, которая стремится уместить каждую точку данных в низкоразмерное подпространство, чтобы найти внутреннюю простоту, которая делает сложные, реальные данные управляемыми. Существующие методы кластеризации подпространств с трудом справляются с обработкой «выходящих за пределы выборки» или неизвестных точек данных и больших наборов данных, которые сегодня широко распространены.
«Одна из проблем эпохи больших данных — организовать данные вне выборки с использованием модели машинного обучения, основанной на« входящих в выборку »или известных данных наблюдений», — объясняет Пэн, который вместе со своими коллегами предложил три метода как часть единой платформы для решения этой проблемы. Эти методы различаются тем, как они реализуют обучение репрезентации; один фокусируется на разреженности, а два других — на низком ранге и эффектах группировки. «Решая проблемы крупномасштабных данных и кластеризации вне выборки, наш метод делает возможными кластеризацию больших данных и онлайн-обучение», — отмечает Пэн.
Структура, разработанная командой, разделяет входные данные на данные «в выборке» или «данные вне выборки» на начальном этапе «выборки». Затем данные в выборке группируются в подпространства на этапе «кластеризации», после чего данные вне выборки назначаются ближайшему подпространству.
Эти точки затем обозначаются как члены кластера.
Команда проверила свой подход на ряде наборов данных, включая различные типы информации, от изображений лиц до текста — как рукописных, так и цифровых — покерных рук и лесного покрова.
Они обнаружили, что их методы превосходят существующие алгоритмы и успешно снижают вычислительную сложность (и, следовательно, время выполнения) задачи, сохраняя при этом качество кластера.
