ЕТАПИ МАШИННОГО АНАЛІЗУ ТЕКСТІВ. ПРОБЛЕМА БАГАТОЗНАЧНОСТІ ПРИРОДНИХ МОВ

Машинний аналіз текстів на природній мові передбачає реалізацію лінгвістичного процесора, що виконує обробку вхідних текстових документів у відповідності з наступними строго визначеними етапами [1] :

  • 1) графематіческій аналіз;
  • 2) морфологічний аналіз;
  • 3) синтаксичний аналіз;
  • 4) семантичний аналіз;
  • 5) прагматичний аналіз.

Розглянемо подібні кожен з етапів.

Графематіческій аналіз являє собою найнижчий рівень обробки текстів і, відповідно, перший етап машинного аналізу. Ми вже говорили, що членимость - це одне з базових властивостей тексту, завдяки якому машина може зробити декомпозицію тексту на структурні елементи. Графематіческій аналіз і являє собою таку декомпозицію тексту. Залежно від глибини і характеру членування тексту вона може називатися по-різному: графематіческій аналіз, токеніза- ція, сегментація.

Таким чином, головними завданнями графематіческого аналізу є визначення меж речень (сегментація) і поділ пропозицій на слова (токенізація). Під токенами розуміються такі мінімальні неподільні одиниці тексту, як слова, розділові знаки, дати, числа, скорочення і т.д. Приклади токенов:

  • • дати і позначення часу (02.04.59, 13:10);
  • • абревіатури і скорочення, в тому числі з однієї літери (СРСР, СПб., 1-й, М.);
  • • буквено-цифрові назви (Tele2, Сочі-2014);
  • • грошові позначення (100 $);
  • • слова, написані вразрядку, прописними літерами, через дефіс, складні слова (л-е-т-о, Н А К А хліб-сіль);
  • • імена власні (А. С. Пушкін, аль-Фарабі, Ріккі- Тікі-Таві);

• електронні адреси та посилання { Ця адреса електронної пошти приховується від різних спамерських пошукових роботів. Щоб побачити її потрібно активувати Ява-скрипт. ,

• номери телефонів в різних форматах (8-7232-540-443).

Морфологічний аналіз являє собою другий етап

в обробці тексту. Він дозволяє визначити морфологічні характеристики для кожного з виділених слів тексту. При цьому для кожного слова визначається його лема - нормальна форма. У російській мові нормальними вважаються такі морфологічні форми слів:

  • • для іменників - називний відмінок, однина;
  • • для прикметників - називний відмінок, однина, чоловічий рід;
  • • для дієслів, дієприкметників, дієприслівників - дієслово в інфінітиві.

Процесу лематизації (приведення слів до нормальних форм) властива лексична і морфологічна неоднозначність, яка виражається в тому, що одному слову можуть відповідати кілька лем. Ця неоднозначність може бути знята при виконанні синтаксичного аналізу. Наприклад, при морфологічному розборі пропозиції «Сплять в снігу самотні їли» (І. Бунін) для всіх слів, крім слова «їли», лема визначається однозначно. Для слова «їли» існує дві леми: «ялина» (іменник) і «є» (дієслово).

Синтаксичний аналіз дозволяє зняти неоднозначність, яка виникає на морфологічному рівні. Наприклад, за допомогою синтаксичного розбору можна встановити, що слово «їли» грає в реченні роль підмета і передує визначенням «самотні». Виходячи з цих фактів, для слова «їли» вибирається лема «ялина». Таким чином, синтаксичний аналіз доповнює результати морфологічного і формує дерево розбору пропозиції - структуру, елементи якої пов'язані синтаксичними правилами.

Існує два основних способи побудови дерева синтаксичного розбору: в вигляді дерева залежностей і у вигляді дерева складових. Вершинами дерева залежностей є слова, а дугами - зв'язки (залежності) між словами (рис. 8.7). Кореневої вершиною є присудок.

Приклад синтаксичного розбору у вигляді дерева залежностей

Мал. 8.7. Приклад синтаксичного розбору у вигляді дерева залежностей

Розбір у вигляді дерева складових проводиться за наступним алгоритмом. Спочатку будуються всі можливі синтаксичні зв'язку з призначеними ним вагами. Потім з отриманого графа витягується дерево мінімальної ваги, що включає як можна більше вершин. Вершинами дерева складових є групи слів, а дугами - зв'язки між групами (рис. 8.8). Кореневої вершиною є найбільша група (пропозиція S) y яка потім розпадається на дві групи: іменну групу NP і дієслівну групу VP. Кожна з груп, в свою чергу, ділиться на складові її підгрупи, і так до тих пір, поки на кінцях гілок не опиняться всі слова.

Приклад синтаксичного розбору у вигляді дерева складових

Мал. 8.8. Приклад синтаксичного розбору у вигляді дерева складових

Потреба в синтаксичному аналізі виникає в більш складних системах, наприклад в системах автоматичного вилучення фактів. Витяг фактів неможливо без виділення синтаксичної структури, оскільки значну частину сенсу передають не власними слова, а зв'язки (відношення між словами). Для вилучення факту спочатку визначається його опорний елемент (наприклад, персона), потім, виходячи з дерева розбору, визначаються зв'язку цієї сутності з іншими сутностями. Таким чином, формується якась поверхнева схема факту.

Метою семантичного аналізу є перехід від структури синтаксичних зв'язків до її смислової інтерпретації. Таким чином, на вхід даного етапу подається синтаксична структура тексту, представлена у вигляді дерев розбору. На виході формується безліч семантичних структур, побудованих відповідно до прийнятої формальної нотацією (семантичної моделлю) (рис. 8.9).

Приклади семантичних структур

Мал. 8.9. Приклади семантичних структур

Вінцем машинного аналізу текстів є прагматичний аналіз. Рідкісні системи доходять до цього етапу. На перший погляд може здатися, що семантичний і прагматичний аналіз - це одне і те ж. Насправді між ними існує принципова різниця. Семантичний аналіз являє собою процес вилучення сенсу тексту на основі деякої заданої моделі знань (наприклад, онтології предметної області). Прагматичний аналіз виходить за рамки моделей про предметну область і часто спирається на екстралінгвістичні фактори, такі як наміри автора, соціальний контекст висловлювання і т.д. Іншими словами, семантичний аналіз проводиться в рамках явно заданої моделі знань, а прагматичний аналіз вимагає від машини здатності аналізувати неявні фактори і робити на їх основі висновки, тобто міркувати.

Необов'язково всі етапи обробки будуть реалізовані. При розробці спрощених прагматико-орієнтованих систем обробки природної мови, як правило, буває досить реалізації перших двох етапів. Однак чим більше етапів реалізовано, тим складніше і інтеллектуальнєє створювана система і тим менше фрагментів невирішеною багатозначності залишає вона в текстах.

Дозвіл багатозначності природної мови є однією з фундаментальних проблем його обробки. Існують два основних типи багатозначності: полісемія та омонімія. Полісемією називається мовне явище, при якому у одного і того ж слова (або більшої мовної одиниці) є кілька пов'язаних значень. Омонімією називається мовне явище, при якому у одного слова (або більшої мовної одиниці) є кілька незв'язаних між собою значень.

Полісемія і омонімія виникають на всіх рівнях представлення тексту: на морфологічному, лексичному, синтаксичному тощо Зокрема, можна виділити наступні варіанти полісемії і омонімії:

  • 1) лексичну омонимию. Порівняйте: прозорий ключ; ключ в замку;
  • 2) лексичну полисемию. Порівняйте: ключ в замку; ключ до вирішення;
  • 3) лексико-морфологічну омонимию. Порівняйте: їли кашку; дрімучі їли;
  • 4) морфологічну омонимию. Порівняйте: милі берізки (множинне число, називний відмінок); поруч ні берізки (однина, родовий відмінок);
  • 5) синтаксичну омонимию. Порівняйте: мати купає дочку (мати купає маленьку дочку); мати купає дочку (стареньку маму купає дочку);
  • 6) семантичну полисемию. Порівняйте: чорно-бура лисиця; він - хитра лисиця;
  • 7) прагматичну полисемию. Порівняйте: можеш приїхати завтра? (Прохання - приїжджай завтра); можеш приїхати завтра? (Питання - зумієш приїхати завтра?).

Зі шкільного курсу російської мови ви знаєте, що омонимами називаються слова, що мають однакове звучання, але різні значення. Наприклад, цибуля - рослина і цибулю - знаряддя стрільби. Подібне явище називається лексичної омонімією. Однак омонімія властива не тільки словами, а й пропозицій. Така омонімія називається синтаксичної, і вона позначає явище, коли у одного і того ж пропозиції існує кілька рівноправних синтаксичних структур.

Приклад синтаксичної омонімії дає нам пропозицію «Їх шеф повернувся з відрядження в Томськ». Ця пропозиція має дві рівноправні синтаксичні структури і, як наслідок, два різних сенсу (рис. 8.10). Першою структурі відповідає сенс: їх шеф повернувся з Томська. Другий структурі відповідає сенс: їх шеф повернувся до Томська. Таким чином, тут ми спостерігаємо різні види залежностей (різні конфігурації стрілок). Така омонімія називається стрілочної.

Приклад синтаксичної омонімії

Мал. 8.10. Приклад синтаксичної омонімії

Інший приклад синтаксичної омонімії дає нам пропозицію «Критика шефа була справедливою». Їй також відповідають два різних сенсу: критика, висловлена шефом, була справедливою; критика, якої зазнав шеф, була справедливою. Однак неважко помітити, що на відміну від попереднього прикладу, тут в обох варіантах використовується одна і та ж синтаксична структура, відрізняється тільки інтерпретація цієї структури (раз-мітка). Конкретно - інтерпретація зв'язку «критика шефа». У нервом випадку зв'язок суб'єктна (критикує шеф). У другому випадку зв'язок об'єктна (критикують шефа). Така омонімія називається розмічальної.

В одній роботі з лінгвістики [2] зазначається, що інтерес до синтаксичної омонімії особливо зріс з початком досліджень але машинного аналізу текстів. Дійсно, з точки зору машинного аналізу синтаксична омонімія - це явище більш складного порядку, ніж омонімія лексична. Пояснимо сказане на прикладі завдання, опублікованій в зазначеній роботі. Автор завдання - Є. В. Муравеіко.

Завдання. Скільки різних смислів має пропозицію «Сусіда Віктора зустрів вчора повернувся з поїздки в Москву Олег»? Які типи синтаксичного омонімії представлені в цьому реченні?

Рішення. У тексті «Сусіда Віктора зустрів вчора повернувся з поїздки в Москву Олег» є три фрагмента, кожен з яких допускає по дві інтерпретації (табл. 8.1). Як випливає з таблиці, омонімія першого фрагмента разметочная, а другого і третього фрагментів - стрелочная. Текст має 2-22 = 8 смислів.

Таблиця 8.1

Омонімічние фрагменти тексту, наведеного в прикладі

фрагмент

перше розуміння

друге розуміння

1

... сусіда Віктора ...

сусіда (чийого?) Віктора

сусіда по імені Віктор

2

... зустрів вчора повернувся ...

зустрів (коли?) вчора

вчора (коли?) повернувся

3

... повернувся з поїздки в Москву ...

який повернувся (куди?) в Москву

з поїздки (куди?) в Москву

Функцію дозволу багатозначності, тобто виділення потрібного значення багатозначної текстової одиниці, виконує контекст. Слово «контекст», як і слово «текст», походить від латинського слова textus , що позначає «сплетіння», «з'єднання», «зв'язок», але воно до того ж посилено приставкою соп яка перекладається з латинської мови як «разом», «спільно» , «с». Таким чином, контекст - це зв'язок пов'язаного, зв'язок в квадраті. У загальноприйнятому визначенні контекст - це є завершений уривок мови (тексту), загальний зміст якого дозволяє уточнити значення входять до нього окремих мовних одиниць (слів, пропозицій і т.п.).

Як правило, розрізняють ситуативний (екстралінгвальний) і лінгвістичний контексти.

Лінгвістичний контекст можна охарактеризувати як складне явище, що являє собою сукупність лексико-граматичних умов, при яких однозначно визначається зміст будь-якої одиниці тексту. Наприклад, в якості лінгвістичного контексту можна розглядати поєднання визначається слова з попереднім або наступним словом. Порівняйте, «їли кашку» (присудок + пряме доповнення) і «дрімучі їли» (визначення + підмет).

Екстралінгвальний контекст включає в себе «обстановку, час і місце, до якого належить вислів, а також будь-які факти реальної дійсності, знання яких допомагає рецептора (і перекладачеві) правильно інтерпретувати значення мовних одиниць у висловлюванні» [3] . Екстра-лінгвістичний контекст надзвичайно важливий в організації машинного перекладу.

Наприклад, слово term в англійському має значення «умова» і «слово», і якщо поставити перекладачеві Google просто фразу «special terms» без вказівки контексту, то фраза буде переведена як спеціальні умови. Якщо ж ввести більш докладний текст, то з його контексту Google Перекладач усвідомить, що мова йде про терміни. Наприклад, в тексті «Note that there are spelling errors in the text , abbreviations , different date formats , and special terns specific to this organization or industry » вираз special terms буде переведено як спеціальні терміни. Ось повний переклад: «Зверніть увагу, що є орфографічні помилки в тексті, абревіатури, різні формати дати і спеціальні терміни, специфічні для даної організації або галузі».

Таким чином, машинний аналіз текстів - це складний інтелектуальний процес, який часто вимагає виходу за рамки лінгвістичних знань. Він пов'язаний з ситуативним аналізом, з аналізом фактів, логічним висновком і багатьма іншими завданнями штучного інтелекту.

  • [1] Дунаєв Л. Л. Дослідницька система для аналізу текстів природною мовою // Проблеми інтелектуалізації та якості систем інформатики: збірник. Вип. 13. Новосибірськ: Изд-во ІСІ СО РАН, 2006.
  • [2] Муравеіко Е. В. Що таке синтаксична омонімія? // Лінгвістікадля всіх: літні лінгвістичні школи 2005 і 2006. М .: Изд-во МЦНМО, 2008.
  • [3] Комісарів В. Н. Загальна теорія перекладу. М .: Вища Школа, 1990..
 
Переглянути оригінал
< Попер   ЗМІСТ   ОРИГІНАЛ   Наст >