Введение в обучение без учителя

Введение и план курса

Здравствуйте и добро пожаловать на занятия по теме «Кластерный анализ и машинное обучение без учителя на языке Python».

Этот курс даст вам представление о некоторых весьма важных и популярных алгоритмах машинного обучения без учителя.

В окружающей нас действительности вы легко можете представить ситуацию, когда робот или искусственный интеллект не всегда имеет доступ к наилучшему решению. Или, возможно, это будет не наилучшее и даже неправильное решение. Тогда нам нужно, чтобы робот был в состоянии самостоятельно исследовать мир и обучаться, отыскивая закономерности.

Вы когда-нибудь задумывались, откуда мы получаем данные для наших алгоритмов машинного обучения с учителем? У нас всегда были подходящие csv-файл или таблица с X и соответствующими им Y. Если вы лично не принимали участия в создании такого рода данных, вы могли не задумываться о том, что кому-то нужно было этим заниматься. Эти самые Y должны были откуда-то появиться, а ещё нужно было потратить множество времени, чтобы вручную установить метки, – нужно было кому-то усесться и пометить, что вот это собака, это кошка и так далее.

В некоторых случаях у нас может не быть доступа к такого рода информации или, возможно, её получение может быть невозможно или просто слишком дорого. Тем не менее мы хотим иметь представление о структуре наших данных. Вот тут-то на сцену и выходит машинное обучение без учителя.

В этом курсе мы сначала рассмотрим кластеризацию, когда вместо обучения на метках мы пытаемся создать собственные метки. Делать это мы будем путём группирования похожих данных. Мы обсудим два метода кластеризации: кластеризацию методом k-средних и иерархическую кластеризацию.

Далее, поскольку в машинном обучении рассматривается распределение вероятностей, мы перейдём к гауссовой смеси распределений и ядерной оценке плотности распределений и поговорим о том, как отыскать распределение вероятностей для набора данных. Любопытно, что при определённых условиях гауссова смесь распределений и кластеризация методом k-средних совпадают. Мы рассмотрим этот случай.

Все алгоритмы, которые рассматриваются в этом курсе, являются основополагающими в машинном обучении и обработке данных. Поэтому если вы хотите знать, как автоматически находить закономерности в данных с помощью их анализа без того, чтобы кто-то вручную метил данные, – этот курс для вас.

Для чего используется обучение без учителя

До этого я пояснял тему общими словами и сообщил лишь, что обучение без учителя применяется для изучения структуры или распределения вероятности данных. А сейчас мы поговорим о некоторых конкретных примерах, в которых вы можете использовать обучение без учителя для обработки данных.

Итак, первый пример – оценка плотности. Вы уже слышали о ней, но хочу отметить, что это целая дисциплина в статистике. Как вы знаете, мы используем функцию плотности вероятности (probability density function, сокращённо PDF), чтобы вычислить вероятность случайной переменной. Оценка плотности – это процесс взятия ряда примеров (выборки) данных со случайной переменной и вычисления функции плотности вероятности. Выяснив распределение переменной, мы можем создавать новые образцы данных с этой переменной, используя вычисленное распределение. Например, мы можем изучить распределение слов в пьесе Шекспира, а затем сгенерировать текст, похожий на шекспировский.

Другой пример – скрытые переменные. Во многих случаях нам необходимо отыскать скрытые или основополагающие причины получаемых нами данных. Это можно рассматривать как задачу отыскания скрытых или отсутствующих переменных. Предположим, к примеру, что вам дали ряд текстов, но не сказали, что они из себя представляют. Вы можете провести их кластеризацию и выяснить, что этот набор текстов можно разделить на несколько определённых групп. Затем, прочитав по несколько текстов из этих групп, вы обнаружите, что одни из них являются любовными романами, другие – книгами для детей и так далее.

Во многих случаях количество данных настолько велико, что просто невозможно изучить все данные самостоятельно, так что возникает необходимость обобщить их, как в наведенном примере. Одним из видов подобного обобщения и является «тематическое моделирование», где скрытой переменной является тема, а явной переменной – слова.

Другой способ представления машинного обучения без учителя – это методы понижения размерности. Как правило, для этого используются такие методы, как метод главных компонент и сингулярное разложение, но эти темы мы рассмотрим в более поздних курсах по машинному обучению без учителя, так что воспринимайте их как часть последующего вашего изучения машинного обучения.

Ещё одна польза от обучения без учителя – наглядное представление. Иногда нам необходима общая картина данных, чтобы выяснить их структуру. Понижение размерности может в этом случае принести пользу, поскольку позволяет с самого начала свести все данные к двухмерному виду, после чего создать диаграмму рассеяния. Впрочем, как вы увидите в этом курсе, мы можем создавать и такие полезные рисунки, как дендрограммы и иерархическую кластеризацию. Визуализация имеет важное значение ещё и потому, что показывает нам, когда алгоритм не работает. С таким случаем мы встретимся позже при рассмотрении метода k-средних.

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: