|
ЗАПИТАННЯ І ЗАВДАННЯ
- 1. Що таке векторна модель представлення тексту?
- 2. Що таке словник колекції? Для чого потрібно скорочення розмірності словника?
- 3. Що таке вага слова в документі? Назвіть відомі вам методики зважування слів.
- 4. Що являє собою латентна семантична модель? Що таке сингулярне розкладання? Які три слідства латентного семантичного аналізу ви знаєте?
- 5. Що таке неотрицательная матрична факторизація?
- 6. Як можна витягти ключові слова за допомогою неотрицательной матричної факторизації і?
ПРАКТИКУМ
- 1. Проаналізуйте код, наведений у прикладі виділення зв'язків в колекції текстів (див. Параграф 9.1). Самостійно знайдіть в Інтернеті довідкове керівництво але пакету Ш або скористайтеся посиланням [1] [2] і ознайомтеся з основними командами пакета tm.
- 2. Проаналізуйте, як зміниться граф зв'язків в прикладі з параграфа 9.2, якщо використовувати значення k = 3? к = 4? Як ви можете пояснити ці результати?
- 3. Виконайте класифікацію, використовуючи матрицю dim з прикладу в R до і після сингулярного розкладання. Проаналізуйте, як зміниться ймовірність класифікації: підвищиться або знизиться?
РЕКОМЕНДОВАНА ЛІТЕРАТУРА
- 1. Мастіцкій, С . Е. Статистичний аналіз і візуалізація даних за допомогою R / С. Е. Мастіцкій, В. К. Шитіков // R: Аналіз і візуалізація даних. 2014. URL: http://r-analytics.blogspot.rU/p/blog-page_20.html
- 2. Пєскова, О. В. Методи автоматичної класифікації текстових електронних документів / О. В. Пєскова // Науково-технічна інформація. - 2006. - Т. 2.
- 3. Пєскова, О. В. Методи автоматичної класифікації електронних текстових документів без навчання / О. В. Пєскова // Науково-технічна інформація. - 2006. - Т. 2.
- 4. Федотов, Р. Г. Класифікація текстових документів. Зменшення розмірності задачі і підвищення продуктивності / Р. Г. Федотов // Nauka-rastudent.ru. - 2014. - № 4 (04).
- 5. Jurka, Т. Р. RTextTools: A Supervised Learning Package for Text Classification / Т. P. Jurka // The RJournal. - 2013. - № 1 (5).
|