ЗАПИТАННЯ І ЗАВДАННЯ

  • 1. Що таке векторна модель представлення тексту?
  • 2. Що таке словник колекції? Для чого потрібно скорочення розмірності словника?
  • 3. Що таке вага слова в документі? Назвіть відомі вам методики зважування слів.
  • 4. Що являє собою латентна семантична модель? Що таке сингулярне розкладання? Які три слідства латентного семантичного аналізу ви знаєте?
  • 5. Що таке неотрицательная матрична факторизація?
  • 6. Як можна витягти ключові слова за допомогою неотрицательной матричної факторизації і?

ПРАКТИКУМ

  • 1. Проаналізуйте код, наведений у прикладі виділення зв'язків в колекції текстів (див. Параграф 9.1). Самостійно знайдіть в Інтернеті довідкове керівництво але пакету Ш або скористайтеся посиланням [1] [2] і ознайомтеся з основними командами пакета tm.
  • 2. Проаналізуйте, як зміниться граф зв'язків в прикладі з параграфа 9.2, якщо використовувати значення k = 3? к = 4? Як ви можете пояснити ці результати?
  • 3. Виконайте класифікацію, використовуючи матрицю dim з прикладу в R до і після сингулярного розкладання. Проаналізуйте, як зміниться ймовірність класифікації: підвищиться або знизиться?

РЕКОМЕНДОВАНА ЛІТЕРАТУРА

  • 1. Мастіцкій, С . Е. Статистичний аналіз і візуалізація даних за допомогою R / С. Е. Мастіцкій, В. К. Шитіков // R: Аналіз і візуалізація даних. 2014. URL: http://r-analytics.blogspot.rU/p/blog-page_20.html
  • 2. Пєскова, О. В. Методи автоматичної класифікації текстових електронних документів / О. В. Пєскова // Науково-технічна інформація. - 2006. - Т. 2.
  • 3. Пєскова, О. В. Методи автоматичної класифікації електронних текстових документів без навчання / О. В. Пєскова // Науково-технічна інформація. - 2006. - Т. 2.
  • 4. Федотов, Р. Г. Класифікація текстових документів. Зменшення розмірності задачі і підвищення продуктивності / Р. Г. Федотов // Nauka-rastudent.ru. - 2014. - № 4 (04).
  • 5. Jurka, Т. Р. RTextTools: A Supervised Learning Package for Text Classification / Т. P. Jurka // The RJournal. - 2013. - № 1 (5).

  • [1] Див. Наприклад: ./ ш '& я Т. Р. RTextTools: A Supervised Learning Package for TextClassification / TP jurka [ct al.] // The R Journal. 2013. № 1 (5).
  • [2] Graham W. Hands-On Data Science with R Text Mining // Togaware. 2016.10 January. URL: http://oncpagcr.togaware.com/TextMiningO.pdf
 
Переглянути оригінал
< Попер   ЗМІСТ   ОРИГІНАЛ