Как узнать больше об NLP

Что мы не обсуждали?

Здравствуйте и вновь добро пожаловать на занятия по теме «Обработка данных: обработка естественных языков на языке Python».

В этой лекции мы поговорим о вещах, которые не затрагивали в курсе, а также о том, где вы можете узнать больше о NLP.

Первая из них – дистанция редактирования. Она показывает, насколько две строки отличаются друг от друга. Иначе говоря, это количество вставок, удаления или замен одного символа на другой, чтобы одна строка стала идентичной второй. Дистанция редактирования применяется в вычислительной биологии, поскольку спирали ДНК могут быть представлены в виде «строк», а кроме того, она позволяет ответить и на другие интересные вопросы, например, насколько близкими являются два биологических вида.

Дистанция редактирования напрямую связана с динамическим программированием, о чём вы можете подробнее узнать в курсе алгоритмизации.

Важнейшую тему в NLP составляет анализ. Мы немного познакомились с тем, как с этим справляется библиотека NLTK, но ещё не умеем делать это самостоятельно. По сути это определение структуры предложения и разбиение его на древо анализа. Но сейчас мы не будем в это углубляться.

Мы также не рассматривали максимально-энтропийный классификатор, являющийся основной методикой NLP и основанный на максимуме энтропии.

Как правило, в контексте NLP мы определяли двоичные признаки, вроде является ли слово числом или нет, начинается оно с заглавной буквы или нет. В конечном счёте эти вручную созданные  признаки подставляли в модель логистической регрессии, которая, как вы знаете из моего курса по логистической регрессии, максимизирует правдоподобие нашей модели. Таким образом, в действительности это является лишь другим названием для той же логистической регрессии. На самом деле вы можете пойти ещё дальше, подавая исходные данные в нейронную сеть, чтобы обучением признакам происходило автоматически.

Если вы хотите узнать больше, я рекомендую пройти мой курс по логистической регрессии, который вы можете найти по адресу.

Каков сейчас уровень развития обработок естественных языков?

Большинство может увидеть, какую замечательную работу позволяет совершить глубокое обучение в сфере NLP. Рекуррентные же нейронные сети позволяют моделировать последовательности намного точнее. Мой курс по введению в глубокое обучение также есть на Udemy и находится по адресу.

Благодарю вас за изучение этого курса. Надеюсь, вы многое узнали!

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: