МАШИННИЙ АНАЛІЗ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ

В результаті освоєння даного розділу навчається буде: знати

  • • базові властивості текстів на природній мові; вміти
  • • виробляти розбивка па етапи завдань, пов'язаних з обробкою текстів;

володіти

• прийомами аналізу тексту на різних етапах цього процесу.

Тексти на природній мові. Базові властивості текстів

Слово «текст» походить від латинського textus , що позначає тканину, сплетіння, з'єднання, зв'язок. Зазначена етимологія, на наш погляд, дуже вдало передає сенс слова «текст» і дуже точно виражає три ключові ознаки тексту - цілісність, зв'язність і членимость. Причому перші дві ознаки - цілісність і зв'язність - це основні ознаки текстуально.

Цілісність відображає смислову єдність тексту. Під смисловим єдністю (когерентністю) тексту розуміється підпорядкованість його висловлювань одній темі. Маркерами когерентності можуть виступати опорні (ключові) слова, які описують зміст тексту і допомагають швидко, не читаючи весь текст, дізнатися його тему.

Можливості підключення відображає формальну єдність тексту. Під формальним єдністю (когезией) тексту розуміється порядок, зв'язок, спадкоємність його висловлювань, яка утворюється при розвитку теми. Маркерами когезии можуть виступати вступне слово і вказівні займенники, що вказують на порядок викладу (по-перше, нарешті, з тих пір), на повтор (іншими словами, а саме, тобто), на протиставлення (проте, тим не менше), на раніше згадані об'єкти (обидва, цей, такий).

Проілюструємо властивості когерентності і когезії тексту на прикладі уривка з твору М. Пришвіна «Комора сонця»: «Років двісті тому вітер-сівач приніс два насіннячка в Будово болото: насіння сосни й насіння ялини. Обидва насіннячка лягли в одну ямку біля великого плоского каменю ... З тих пір вже років, може бути, двісті ці ялина і сосна разом ростуть » [1] . Маркерами когерентності в цьому тексті є ключові слова «сіяч», «насіння», «насіннячко», «сосна», «ялина». Маркерами когезии в цьому тексті є займенник «обидва» і вступне словосполучення «з тих пір».

Розглянемо таке явище, як кореференція. Кореференція є одним з основних засобів, що забезпечують зв'язність (когезию) тексту. Вона здійснює згадка однієї і тієї ж сутності (референта) в різних частинах тексту за допомогою різних позначень. Таким чином, кореференція допомагає утримувати інформацію про референті протягом усього тексту.

Пояснимо суть кореференціі на прикладі наступного тексту: «Іван Олексійович Бунін - видатний російський письменник і поет. Він є першим лауреатом Нобелівської премії з літератури з Росії ». У наведеному тексті для однієї і тієї ж особи використовується кілька кореферентних позначень: ім'я (Іван Олексійович Бунін), рід діяльності (письменник і поет), займенник (він), характеристика (лауреат Нобелівської премії).

Дозвіл кореференцій (coreference resolution) - це одна з базових задач машинної обробки природної мови. Це завдання не так тривіальна, як може здатися на перший погляд. Порівняйте: «Учениця впоралася з роботою, тому що вона легка» і «Учениця впоралася з роботою, тому що вона розумна». З точки зору машини, синтаксична структура обох текстів ідентична, але в першому тексті кореференція відноситься до суті «робота», а в другому - до сутності «учениця».

Способами вираження кореференціі є:

  • • анафоріческіе посилання, тобто спеціальні покажчики на об'єкт. Наприклад: « Пигани шумною натовпом по Бессарабії кочують. Вони сьогодні над річкою в наметах подертих ночують »(А. С. Пушкін);
  • • синоніми. Наприклад: « Росія! Русь! Бережи себе, бережи! »(Н. Рубцов);
  • • Гіпероніми. Наприклад: « Герань - одна з улюблених квітникарями культур. Рослина цінується за свою красу і невибагливість »;
  • • асоціативні відносини. Наприклад: «У лісу на узліссі жила Зима в хатинці ... Стеля крижаний, двері скрипливі, за шорсткою стіною темрява колюча» (С. Островой).

Один з популярних способів вирішення кореференцій заснований на використанні математичного апарату теорії графів. Його суть полягає в поданні тексту як гіперграфу, вершинами якого є позначення сутностей, що зустрічаються в тексті, а ребрами - імовірнісні зв'язку між цими позначеннями 1 . У такій постановці завдання дозволу кореференцій зводиться до того, щоб виконати розбиття гіперграфу на підграфи гак, щоб кожен підграф відповідав тільки однієї сутності, тобто містив позначення тільки цієї сутності.

На наступному рис. 8.1 [2] [3] ми зобразили гіперграф, відповідний тексту: « Президент Путін подякував Ангелу Меркель за її приїзд. Він висловив надію, що зустріч пройде плідно ». Пунктирними колами виділені підграфи гіперграфу, що відносяться до персони Володимира Путіна і персони Ангели Меркель відповідно. Як ми бачимо, вершина «Її (приїзд)» правильно віднесена до подграфа «Ангела Меркель», і це дуже важливий результат для систем автоматичного вилучення фактів і систем - агрегаторів новин.

Приклад розбиття гіперграфу на два подграфа, що відповідає двом сутностей в тексті

Мал. 8.1. Приклад розбиття гіперграфу на два подграфа, що відповідає двом сутностей в тексті

Ймовірно, ви помітили, що ребра на наведеному в рис. 8.1 гіперграфах позначені числами. Кожне число позначає приписаний даному ребру вага, який показує ймовірність, що пов'язані цим ребром вершини (позначення) належать одному подграфа (сутності). Імовірність складається на основі безлічі ознак. Наприклад, одним з таких ознак є збіг роду, завдяки якому стає ясно, що позначення «Її» не може ставитися до персони Володимира Путіна, а позначення «Він» - до персони Ангели Меркель.

Після того як ваги визначені, проводиться розбиття графа. У нашому випадку можна не мудруючи лукаво видалити в гііерграфе ребра, ваги яких нижче порогового значення 0,8. Тоді граф сам собою розпадеться на незв'язні компоненти (рис. 8.2). Однак в реальності розбиття гіперграфу на підграфи (компоненти сильної зв'язності) - це складна математична і алгоритмічна задача.

Видалення ребер з маленькими значеннями ваг вирішило задачу розбиття гіперграфу «природним» способом

Мал. 8.2. Видалення ребер з маленькими значеннями ваг вирішило задачу розбиття гіперграфу «природним» способом

Третій ключовий ознака тексту - членімості гь - означає здатність тексту ділитися на складові частини. Складовими частинами тексту можуть виступати його лінійні сегменти (глави, абзаци, речення), композиційні частини (зав'язка, кульмінація, розв'язка), смислові фрагменти (мікротеми). Як мінімальної складової частини тексту зазвичай виділяють висловлювання (пропозиція) або слово.

Членимість виявляється вельми корисною властивістю при виконанні машинної обробки тексту. Саме завдяки властивості членимости комп'ютер може зробити декомпозицію тексту на структурні елементи, кожен з яких потім може бути проаналізований і заново синтезований укупі з іншими елементами, але вже не в вихідний текст, а в машиночитаемую структуру.

На рис. 8.3 схематично представлений процес машинної обробки тексту «Я Вас любив ...». Спочатку текст декомпозіруется, тобто ділиться на слова, потім кожне слово піддається морфосинтаксичного аналізу, що дозволяє визначити його роль в тексті. В результаті аналізу виділяються дві сутності і одне відношення: суб'єкт (Я), об'єкт (Ви) і предикат (Любити). Ці сутності та відношення об'єднуються (синтезуються) в єдиний машинозчитуваний триплет <Любити, Я, Ви>. Зауважимо, що наведена схема не є ідеальною, зокрема, вона не враховує тсм- поральность (тимчасовість) відносини «любити».

Схема машинної обробки тексту «Я Вас любив ...»

Мал. 83. Схема машинної обробки тексту «Я Вас любив ...»:

а - декомпозиція; б - аналіз; в - синтез

Підводячи підсумок, можна сказати, що текстом є будь-яка цілісна і зв'язкова послідовність висловлювань, об'єднаних різними типами смислових і граматичних зв'язків. Слід зазначити, що в наведеному визначенні нічого не говориться про письмовому характері тексту, тобто текстом вважається як письмове, так і усне повідомлення. Єдиного усталеного думки з цього питання серед лінгвістів немає. Ми розглядаємо текст саме як письмове повідомлення, тим самим відрізняючи його від мови - усного повідомлення.

  • [1] Наводиться по: Пришвін М. Комора сонця: повість та оповідання. Мінськ: Народна асвета, 1980.
  • [2] First-Order Probabilistic Models for Coreference Resolution / A. Culotta, M. Wick, R. Hall, A. McCallum // Proceedings of the Conference on Human LanguageTechnology. 2007.
  • [3] Упоряд. no: First-Order Probabilistic Models for Coreference Resolution / A. Culotta, M. Wick, R. Hall, A. McCallum.
 
Переглянути оригінал
< Попер   ЗМІСТ   ОРИГІНАЛ   Наст >