Навігація
Головна
 
Головна arrow Інформатика arrow Інформатика для економістів
< Попередня   ЗМІСТ   Наступна >

Створення і типи індексів

Пошуковик тим краще, чим більше "правильні" сторінки він показує користувачеві у відповідь на запит. "Правильні" сторінки називаються релевантними (тобто відносяться до справи, доречними).

Щоб розуміти, як пошуковику вдається знаходити найбільш релевантні сторінки, потрібно розібратися в тому, як влаштований індекс пошукової машини.

Пошукова машина для створення індексу з викачаних веб-сторінок виконує наступні кроки.

1. Конверсія в чистий текст.

Для початку текст індексованою сторінки потрібно очистити від всяких нетекстових елементів - графіки, розмітки (тегів) мови HTML і т.д. У результаті виходить чистий текст, з яким далі працює індексний робот.

2. Вибірка слів.

Всі слова потрібно вибрати з тексту, щоб потім розташувати їх за алфавітом. Для цього пошуковик повинен знати, що саме вважається словом - послідовність літер (і якого саме алфавіту), числа, буквено-цифрові послідовності, слова з дефісом і т.п., а також те, що словом не вважається і пропускається (прогалини, знаки пунктуації та ін.). У кожного пошукача є своє визначення того, що вважати словом в тексті (стандарту тут не існує).

3. Лінгвістична обробка.

У більшості пошукових машин слова, не заносяться в індекс в тому вигляді, в якому вони наведені в тексті.

Зазвичай на етапі вибірки слів з текстів веб-сторінок пошукова машина застосовує якийсь свій алгоритм лінгвістичної обробки слів, а саме приведення слів до їх початковим граматичним формам, або основ. Цей алгоритм називається машинної морфологією

4. Складання індексу.

Зібрані разом основи всіх слів з усіх текстів зводяться в індекс - своєрідний словник, у якому основи упорядковані за алфавітом, а при кожній основі записано, з якої сторінки вона взята (номер сторінки) і на якому місці на цій сторінці дана основа стояла (помер входження ). Основи в словнику упорядковуються за алфавітом для зручності пошуку по ним.

У реальності для економії місця і підвищення швидкості використання індексу його структуру всіляко оптимізують і ускладнюють. Наприклад, замість основ в індексі зберігають їх номери, а основи зберігають окремо; номери сторінок пишуть не всякий раз, а тільки одного разу для всіх входжень з даною сторінки і т.д. Потім індекс упаковують для економії місця, ще раз індексують для прискорення доступу і т.д.

Але загальна ідея індексного запису саме така, як описано вище.

Координатний індекс

Перші інтернет-пошукачі (середини 1990-х рр.) Не запам'ятовували розташування слова на сторінці. В індекс записувався тільки список сторінок, на яких зустрілося дане слово. Це робилося для економії місця і для того, щоб отримати більш просту структуру індексу, іншими словами, для більш швидкого доступу до індексу.

Однак це обмеження не дозволяло досить точно визначити релевантність сторінки при пошуку словосполучень. Адже пошуковик не міг розрізнити компактне входження слів запиту, коли вони стоять поруч, в одній фразі, від разнесенного входження, коли одне слово запиту, скажімо, знаходиться в правому верхньому кутку сторінки, а друге - в лівому нижньому.

В результаті для багатослівних запитів релевантність була практично нульовою. Так, наприклад, був влаштований пошуковик Рамблера аж до 1999 р

З ростом числа багатослівних запитів (а їх частка весь час зростає в міру зростання числа досвідчених користувачів) і в міру розвитку пошукових технологій більшість популярних пошукачів перейшли на індекс, що враховує координату слова на сторінці. Такий індекс називається координатним.

Облік компактних входжень слів запиту в координатному індексі дозволяє не тільки більш акуратно "зважувати" релевантність сторінки, але і показувати найбільш підходящу цитату з тексту сторінки.

Індекс являє собою звернену, "вивернула навиворіт" копію всіх сторінок Інтернету. Якщо в звичайному тексті ми йдемо від сторінки до слів, то в індексі пошукова машина йде від слів до сторінок. Тому індекс пошукової машини називається інвертованим або інверсним, тобто зверненим, перевернутим.

Прямий індекс

Щоб показувати при знайдених сторінках цитати з виділеними (підсвіченими) словами запиту, пошукові машини зберігають всі тексти всіх проіндексованих сторінок. Зберігають, звичайно, в стислому, упакованому вигляді, без HTML-розмітки, графіки та іншого "сміття", в чисто текстовому вигляді. Але в кожному разі пошукова машина зберігає у себе на серверах копію всього Інтернету, викачаного її пошуковим роботом.

Для зберігання текстової копії сторінок інверсний індекс не підходить - надто довго кожен раз при відображенні цитати відновлювати порядок слів у тексті. Набагато простіше зберігати другий індекс, на жаргоні розробників званий прямим. Він являє собою тексти вебсторінок, очищені від усіх нетекстових елементів, стислі та упаковані, і є текстової копією всього Інтернету.

Наприклад, Google має у себе текстову копію всього світового Інтернету (в тому обсязі, до якого зміг дістатися його "павук"), а Яндекс - копію всього Рунета.

Саме наявність цієї текстової копії дозволяє пошуковим машинам не тільки показувати релевантні цитати в результатах пошуку, а й мати функцію "відновити текст сторінки", якою зручно користуватися, якщо сама потрібна сторінка в даний момент недоступна або взагалі вже вилучена з сайту.

 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >
 
Дисципліни
Агропромисловість
Аудит та Бухоблік
Банківська справа
БЖД
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Нерухомість
Менеджмент
Педагогіка
Політологія
Політекономія
Право
Природознавство
Психологія
Релігієзнавство
Риторика
Соціологія
Статистика
Техніка
Страхова справа
Товарознавство
Туризм
Філософія
Фінанси
Пошук