Почему обрабатывать естественный язык сложно

Здравствуйте и вновь добро пожаловать на занятия по теме «Обработка данных: обработка естественных языков на языке Python».

На этой лекции мы поговорим о том, почему так сложно обрабатывать естественный язык.

NLP сложно прежде всего потому, что естественный язык неоднозначен. Вероятно, вы слышали фразу, что математика – это универсальный язык. Это так, поскольку язык математики точен. В естественном же языке есть синонимы, когда два слова обозначают одно и то же понятие, и есть омонимы, то есть два слова, которые звучат и пишутся одинаково, но имеют разные значения. Вот несколько примеров неоднозначности.

Возьмём предложение «Республиканцы испепеляют главу Службы внутренних доходов потерянными электронными письмами» – это реальный заголовок одной из газет. Существует два возможных толкования этого предложения.

Первое – «республиканцы задают жёсткие вопросы главе службы по поводу потерянных писем».

Второе толкование – «республиканцы жарят главу службы, используя электронные письма в качестве топлива». Конечно, нам такая интерпретация кажется нелепой, но для машины оно вполне имеет смысл.

Вот ещё один пример неоднозначного предложения – «Я видел человека на холме с телескопом». На первый взгляд, предложение кажется вполне разумным и вовсе недвусмысленным. Но на самом деле существует целый ряд возможных толкований этого предложения.

Первое толкование – на холме находится человек, а я смотрю на него через свой телескоп.

Второе толкование – я смотрю на человека, находящегося на холме и обладающего телескопом.

Третье толкование – есть человек, он находится на холме, который обладает телескопом.

И четвёртое толкование – я, находясь на холме, видел человека, пользующегося телескопом.

В качестве упражнения предлагаю вам придумать ещё несколько вариантов толкования этого предложения.

Другая причина сложности обработки естественных языков заключается в том, что если вы просматриваете, скажем, сообщения в Twitter, – которые, между прочим, многие пытаются анализировать с помощью NLP, – то большинство людей даже не пользуются настоящими английскими словами, поскольку из-за ограничения на количество символов используют сокращения вроде «U», «UR» или «LOL».

А как насчёт выражения «зайти на чашку чая»? Каково его буквальное толкование?

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: