Ознайомитись з основними пошуковими системами мережі Інтернет. Оволодіти навичками роботами в пошукових системах. Навчитися вибирати оптимальну пошукову систему з урахуванням специфіки поставлених завдань.
Що таке пошукові машини? Назвіть основні частини програмного комплексу.
Пошукові машини - це комплекс спеціальних програм для пошуку в мережі.
Основні частини програмного комплексу:
1.Робот spider (павук). Автономно працює програма, яка перебирає сторінки сайтів, що стоять в черзі на індексацію. Вона завантажує на диск пошукового сервера вміст досліджуваних сторінок.
2.Робот crawler ( "мандрівний" павук). Його завдання - збирати всі посилання на досліджуваній сторінці, знаходити серед них нові, невідомі пошуковій системі, і додавати їх в список очікують індексації.
3.Індексатор. Обробляє сторінки з черги на індексацію. Для цього він складає "словник" сторінки, запам'ятовує "частоту" використання слів. Особливо відзначає ключові слова, використовувані в заголовках, виділені в тексті жирним шрифтом. Поміщає все це в особливий файл - "індекс".
4.База даних. Зберігає посилання на сторінки, словник зустрічаються на сторінці слів і багато іншої інформації, яка необхідна для формування результатів пошуку.
5.Система обробки запитів і видачі результатів. Приймає запит користувача, формує запит до бази даних, отримує звідти результат і передає його користувачеві.
Що таке каталоги? Перерахуйте їх достоїнства і недоліки
Каталоги - традиційний засіб організації інформації. Напевно, всім нам доводилося зустрічатися з бібліотечними каталогами, каталогами товарів. Каталоги використовуються в безлічі систем. Практично скрізь, де необхідно зберігати і організовувати інформацію.
До недоліків каталогів можна віднести наступне:
По-перше, неоднозначність структури - це явний мінус каталожної організації інформації (хоча він і кілька згладжується тим, що в кожному великому каталозі реалізований пошук по каталогу).
По-друге, каталоги роблять люди. Їх повнота і якість залежать від кількості і кваліфікації людей, зайнятих роботою в каталозі, їх особистих смаків та уподобань. Нерівність наповнення рубрик - характерна риса всіх каталогів.
По - третє, трудомісткість ручної рубрикації обмежує обсяг каталогізіруемой інформації.
У той же час безумовними перевагами каталогів є те, що інформація в ньому зберігається впорядковано, відповідно до елементарної людської логікою і релевантність знайдених сторінок при пошуку в каталозі зазвичай на порядок вище, ніж при пошуку пошуковими системами.
Як було сказано вище, через те, що каталоги створюються вручну, вони охоплюють набагато менше ресурсів, ніж пошукові машини. У Web зараз, за найскромнішими оцінками, налічується мільярд сторінок (причому їх число щодня збільшується на мільйон). Більшість пошукових машин не підійшли скільки-небудь близько до того, щоб проіндексувати всю Мережу. Винятком є Google (для Росії www.google.ru), який претендує саме на цю цифру - мільярд сторінок, частково або повністю охоплених його індексами. Найбільший каталог - Open Directory Project (www.dmoz.org) - на цьому тлі здається крихітним: в нього занесено лише близько 2 млн. Сторінок.
Можна було б очікувати, що, якщо каталог Open Directory Project створюється силами добровольців, якість результатів буде коливатися. Але в результаті ми отримуємо добре організовані списки відносяться до теми сторінок з чіткими описами кожного посилання. А вузол Open Directory Project виробляє таке ж враження, як Google: це «чистий пошук» без відволікаючих моментів типу посилань на магазини.
Який каталог ні вибрати, у всіх є одна перевага перед пошуковими машинами: їх можна систематично переглядати, користуючись ієрархічною системою меню.