ПЕСОЧНИЦА - место для Ваших экспериментов!


С наступающим Новым годом!

Классификация поисковых систем

Материал из ИнтеВики — обучающей площадкой для проведения тренингов программы Intel
Перейти к: навигация, поиск

В мире написаны сотни поисковых систем, а если считать функции поиска, реализованные в самых разных программах, то счет надо вести на тысячи. И как бы ни был реализован процесс поиска, на какой бы математической модели он не основывался, идеи и программы, реализующих поиск, достаточно просты. Хотя эта простота, относится, по-видимому, к той категории, про которую говорят «просто, но работает». Так или иначе, но именно поисковые системы стали одним из двух новых чудес света, предоставив Homo Sapiens неограниченный и мгновенный доступ к информации. Первым чудом, очевидно, можно считать Интернет как таковой, с его возможностями всеобщей коммуникации.

Поисковые системы в исторической перспективе Существует распространенное убеждение, что каждое новое поколение программ совершенней предыдущего. Дескать, раньше все было несовершенно, зато теперь повсюду царит чуть ли не искусственный интеллект. Иная крайняя точка зрения состоит в том, что «все новое - это хорошо забытое старое». Думаю, что применительно к поисковым системам истина лежит где-то посередине.

Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика. Кроме появления фактора, невозможного в доинтернетовскую эру – фактора тотальной востребованности поисковых систем – стала очевидна еще пара изменений. Во-первых, стало ясно, что люди не только «думают словами», но и «ищут словами». В ответе системы они ожидают увидеть слово, набранное в строке запроса. И второе: «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. Мечты 60-х – 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью.

Алгоритм + Структура данных = Поисковая система Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Разнообразие алгоритмов не очень велико, но оно есть. Не считая квантовых компьютеров, которые обещают нам волшебный прорыв в «алгоритмической сложности» поиска, и про которые автору почти ничего не известно, есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создаются вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев, сигнатур. В вырожденном случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов. Такой поиск называется прямым. Илья Сегалович (iseg@yandex-team.ru)

ПОИСК:

1. Действия ищущего, розыски кого- или чего-нибудь.

2. Исследование, направленное на получение новых научных результатов.

Толковый словарь: Кирилл и Мефодий.

Обычно для владельца сайта, если это не закрытая от посторонних корпоративная система, черезвычайно важно понимать принципы работы поисковых систем. При изучении работы поисковых систем целесообразно помнить, что все они в основном создаются для предоставления двух основных сервисов: первый - использование по прямому предназначению (поиск необходимой информации) и второй - применение поисковых систем для продвижения в сети. Для успешного применения той или иной системы необходимо ознакомиться с возможностями и классификацией поисковых систем.

КЛАССИФИКАЦИЯ ПОИСКОВЫХ СИСТЕМ: Все поисковые системы условно можно разбить на три больших класса:

1) Поисковые машины (анг. - search engines). Иначе их еще называют программы - червяки и программы - пауки. Такие программы ползают от одного сайта к другому методично индексируя контент. Все, что находит такой червяк попадает в базу данных, куда любой пользователь может обратиться с запросом. Достоинство таких программ обширная база данных - практически вся сеть. Недостаток - это то, что в ответ на любой запрос вы получаете тысячи адресов веб-страниц.

2) Веб-каталоги или поисковые порталы (directories). Информация в них организуется в виде древовидной структуры, обычно по тематическому признаку и в соответствии с рейтингом. Адреса и описания веб-сайтов заносятся в каталог по заявке. Записи редактируются вручную web-мастером, модератором. Во многие каталоги попасть трудно, некоторые эту услугу делают платной. стремление хозяев сайтов попасть в любой каталог (чем больше, тем лучше) вызвано желанием разместить свою ссылку на чужом сайте и следовательно повысить рейтинг в метапоисковых системах о чем будет сказано ниже. Если вы стремитесь увеличить количество посетителей на своем сайте, то выбирайте такой каталог в котором вас будет видно. Эффект от размещения ссылки в небольшом каталоге и при наличии интересного контента может оказаться довольно высоким, т.к. с таких сайтов посетители уходят в основном по какой-нибудь ссылке. Тем не менее регистрация в таких каталогах как Yahoo! и Open Directory желательна, т.к. их базы данных используются метапоисковыми системами при определении рейтинга.

3) Метапоисковые системы - это поисковые системы у которых отсутствует своя база данных с адресами и описанием ресурсов. Они используют базы данных каталогов. В собственной базе данных хранятся только адреса ресурсов. Поиск с помощью этих систем в настоящее время наиболее популярен. О способах повышения рейтинга в этих системах на примере поисковой системы Google см. в нашей статье "О повышении индекса цитируемости"

1) ПОИСКОВЫЕ МАШИНЫ (от анг. search engines).

AltaVista (вид сверху) - торговая марка популярной поисковой машины. Сегодня база данных AltaVista является самой крупной в Интернете. Помимо разветвленных средств поиска текстовой информации содержит такие инструменты, как Photo Finder - поиск изображений, технологию онлайнового перевода документов и возможность индексирования на нескольких языках. В сотрудничестве с компанией AskJeeves. AltaVista разработала базу данных, управляемую при помощи команд на поддерживаемых языках.

Excite - поисковая машина. Технология Excite лицензирована компанией Netscape Communications для использования на портале NetCenter, а также корпорацией America Online (с правом собственного дополнения БД). Имеет интеллектуальные алгоритмы поиска по технологии ICE (Intelligent Concept Extraction), которые позволяют работать не только с отдельными ключевыми словами, но и с объединяющими их понятиями. Если, допустим, вы введете словосочетание "система обучения", то поисковая машина просмотрит также страницы, содержащие слова "школа", "учебник" и т.д. Таким образом, Excite очень эффективна для поиска материалов по смежным понятиям.

Goto - Компания начала свою деятельность с приобретения старой и довольно известной поисковой машины WWW Worm. Затем решено было подобрать ссылки на самые популярные темы поиска и даже расположить соответствующие ключевые слова на заглавной странице. Результаты поиска часто получаются такие же, что и в HotBot, Snap и Yahoo!, а иногда даже и лучше.

HotBot (Wired Digital) - с 1998 года поисковая машина принадлежит компании Lycos. Здесь используется оригинальная технология Inktomi, позволяющая совершать полноценный текстовый поиск по произвольному ключевому слову. Основные посетители ее поискового сервера - компьютерщики-профессионалы, которые используют HotBot для поиска необходимого программного обеспечения и данных, связанных с информационными технологиями. Однако компьютерной тематикой данная поисковая система, безусловно, не ограничивается. Постоянно ведется работа, направленная на дальнейшее ее развитие: пополняется база данных Inktomi, выпускаются новые версии алгоритмов.

InfoSeek - Поисковая машина которая когда-то входила в десятку лучших. В настоящее время она больше занимается электронной коммерцией. После создания в 1999 году совместного с компанией Walt Disney нового суперпортала под названием Go Network - этот сайт входит в первую десятку по посещаемости.

Northern Light - поисковая машина создавалась в целях увеличения информативности поиска в Интернете. Ее основная идея - контекстный поиск. Спайдер компании ежедневно индексирует тысячи сайтов, в число которых входят электронные издания, периодика, службы новостей, академические библиотеки и электронные архивы текстов. Еще одной особенностью поисковой машины Northern Light, выгодно отличающей ее других, является возможность сортирования полученной информации по адресам сайтов и тематикам. Желающие могут подписаться на всевозможные тематические подборки, например на материалы определенных рубрик из любимых газет и журналов, а затем в течение года получать специально подготовленную и отсортированную информацию. Проект Northern Light является одним из самых масштабных в Интернете.

SearchKing - поисковая система с упором на повышение достоверности информации (релевантности документов). При построении рейтинга поисковая машина учитывает количество "кликов" (щелчков) на ссылках, посещаемых в результате поиска. Поэтому каждый пользователь невольно "голосует" за самый популярный сайт.

WebCrawler - С 1996 года проект принадлежит компании Excite, поэтому на его заглавной странице находится логотип этой фирмы, а поисковая машина WebCrawler является составной частью Excite Network. Ее создатели обращают внимание на то, что многие более поздние технологии, включая Lycos и InfoSeek, были разработаны уже после появления WebCrawler. База данных проекта продолжает регулярно пополняться, но использовать эту систему рекомендуется в случаях, если нужен поиск по одному или двум ключевым словам.

2) ВЕБ-КАТАЛОГИ И ПОИСКОВЫЕ ПОРТАЛЫ:

LookSmart - Каталог ссылок, который редактируется вручную, усилен одной из самых мощных поисковых машин AltaVista - это позволило создать один из самых информативных порталов. гигантская база данных AltaVista поможет отыскать нужный сайт по ключевым словам, а рубрики LookSmart позволят точнее определиться с предметом поиска.

Lycos - Поисковая система специализируется в сфере Интернет-торговли. База данных регулярно пополняется. этот портал обладает мощнейшим специализированным каталогом WhoWhere, содержащим персональную информацию о зарегистрированных пользователях Интернета, а также развитыми средствами по предоставлению услуг электронной почты с ведением адресных книг и возможностью создания иерархической структуры подкаталогов для хранения персональной корреспонденции. Всем посетителям в качестве ответов на запрос вначале предлогаются сайты Open Directory Project, а затем ссылки из базы данных поискового механизма Lycos.

PlanetSearch Networks - портала нового типа, основанный на онлайновых сообществах, в которые люди смогли бы объединяться по интересам и увлечениям, а затем пользоваться не только механизмом поиска, но и тематическими досками объявлений, а также чатами. В результате прекрасный набор тематических сайтов и соответствующих поисковых систем.

Yahoo - один из самых известных порталов Сети. Каталог содержит ссылки, которые наиболее полно отвечают указанной в запросе тематике. Имеются интеллектуальные средства "отсечения" пустых, находящихся в разработке или чисто рекламных сайтов, далеких от искомой тематики. При поиске на Yahoo! большое внимание уделяется предварительному предложению отсортированной информации в каталогах, и только если найденная там информация не удовлетворяет пользователя, то запрос передается метапоисковым машинам.

3) МЕТАПОИСКОВЫЕ СИСТЕМЫ:

All4One (все-в-одном) - предоставляет посетителям возможность получать результаты поиска непосредственно из поддерживаемых поисковых систем, то есть с привычным интерфейсом. После ввода запроса окно браузера разбивается на несколько фреймов. В каждом из них выводится список ссылок, найденных конкретной поисковой машиной, в число которых входят и AltaVista, и Lycos, и Excite. Надо сказать, что такой интерфейс имеет и свои недостатки: страницы со ссылками в узких фреймах очень неудобно просматривать. Однако тем, кому нужен быстрый и широкомасштабный поиск с использованием известных поисковых машин, All4One предоставит весь спектр необходимых услуг.

Debriefing - эта метапоисковая система имеет две различные версии пользовательского интерфейса: интернациональный - на английском языке и национальный - на французском. При работе с ключевыми словами на английском языке сервер использует стандартный набор популярных поисковых систем, а вот запросы на французском языке обслуживают пять поисковых систем и каталогов Франции.

Dogpile - Мощная метапоисковая система Dogpile использует для поиска не только поисковые машины, но и FTP-серверы, а также сайты, на которых собираются последние новости, фондовые котировки и "желтые страницы" Интернета. Среди дополнительных услуг, предоставляемых этим сервером, возможность получения подробных прогнозов погоды и географических карт интересующей пользователя местности.

Google - одна из самых популярных метапоисковых машин в Cети. Корректное отображение запрашиваемой информации. Представление информации согласно рейтинга в основу которого положен индекс цитируемости страниц. Рейтинг страницы определяется по количеству ссылок на нее с популярных внешних сайтов и по упоминанию данного адреса в авторитетных источниках информации.

Принципиальным отличием метапоисковой системы Google, от себе подобных систем, является отсутствие собственной базы данных адресов и ссылок, ведется учет только адресов (URL ресурса) - отсюда и система рейтинга.

Mamma Systems - Канадская метапоисковая система предоставляет стандартный комплекс услуг, принятый в таких случаях: используя базы данных популярных поисковых машин, она делает свою работу весьма качественно.

MetaCrawler - метапоисковая система принадлежит американской компании Go2Net. MetaCrawler вначале производит поиск необходимой информации по базам данных других систем, а затем, используя собственный алгоритм, анализирует и сортирует полученные ссылки, ищет похожие, определяет рейтинг и выдает результат клиенту. Среди других услуг, предоставляемых MetaCrawler, следует отметить возможность расширенного поиска, довольно интересное приложение MiniCrawler для поиска информации в Сети в обход сайта компании и программу MetaSpy, позволяющую вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в Сети.

OneSeek - метапоисковая система предназначена для тех, кто знает, что именно ищет. При использовании OneSeek требуется предварительно выбрать необходимую категорию, поскольку поиск интересующей информации будет производиться именно по этой тематике. Для того чтобы определиться с целями, предлагается довольно удобный интерфейс, который позволит оптимизировать поиск, сэкономит время и позволит избежать ненужных результатов.

ProFusion - Метапоисковую систему ProFusion отличает от других подобных систем наличие функции автоматического выбора трех наиболее подходящих для данного запроса поисковых машин. Это означает, что после ввода ключевого слова ProFusion пытается сузить область поиска, определить тематику, к которой относится запрос, и выбрать три оптимальные для данного случая поисковые машины.

Кроме того, ProFusion предоставляет персональный сервис по сохранению ключевых слов запроса, а затем регулярно автоматически сканирует выбранные поисковые машины, а если находит новую информацию по интересующей теме, то сообщает об этом пользователю (или создает для него "теневую" базу данных). Разрабатываются и другие вспомогательные функции системы.

Proteus - представляет собой скорее даже не метапоисковую систему, а средство переадресации запросов на другие поисковые машины. Здесь нет никакого алгоритма сортировки полученных ссылок - просто на одной странице находится окошко для ввода ключевых слов и множество кнопок для поиска во внешних поисковых системах.

SavvySearch - система предоставляет услуги расширенного поиска в Сети с 1998 года. При запросе клиента исследуются 200 внешних баз данных, сборники прайс-листов и целый ряд специальных электронных справочников и библиотек. SavvySearch имеет простой и продуманный интерфейс, удобные функции поиска. Кроме того, система предоставляет множество дополнительных услуг, количество которых постоянно растет.

РУССКОЯЗЫЧНЫЕ ПОИСКОВЫЕ СИСТЕМЫ:

Так как у многих читателей этой статьи русскоязычные поисковые системы вызывают повышенный интерес мы решили рассмотреть их подробнее. Мощных поисковых систем не так много: Яndex, Rambler, Russian FTP Search, Апорт!. О этих крупных порталах и поговорим.

ЯНДЕКС - Сайт Яndex, принадлежащий компании CompNet, является одним из самых динамично развивающихся порталов в русской части Интернета. В нем проиндексировано более двух миллионов документов, и этот показатель постоянно растет. Основным достоинством системы Яndex является способность находить заданные слова независимо от формы, в которой они употребляются в документах. Интересно, что система способна "склонять" или "спрягать" даже те слова, которых нет в словаре, причем поиск может вестись как по всем формам ключевых слов, так и по конкретно заданной словоформе. Поисковая машина Яndex позволяет устанавливать расстояние между фрагментами ключевой фразы с учетом их порядка, усиливать значимость того или иного слова, использовать уточняющие слова. Поиск можно также вести по заголовкам документов и по встречающимся на страницах ссылкам. Кроме того, в Яndex легко найти документы, похожие по смыслу на те, что заинтересовали вас по предыдущему запросу. К тому же можно ограничивать поиск уже в найденных документах, то есть производить своеобразную "чистку" результатов запроса. При упорядочивании списка ссылок, получаемого пользователем, учитывается число встретившихся в документе ключевых слов, их положение и расстояние между ними, кроме того, каждый из адресов URL содержит краткую аннотацию найденного документа.

RAMBLER - Сервер Rambler компании Stack является одной из самых больших и наиболее известных поисковых систем в русской части Интернета. Ее база данных содержат миллионы документов, а над поддержкой всего этого проекта трудятся более сотни специалистов. Недостатком данной поисковой системы является то, что спайдер индексирует главным образом сайты, расположенные в доменах СНГ, и если даже ваша страница русскоязычная, но ее доменное имя заканчивается не на .ru, а на .com, то ее индексирование в базе данных Rambler весьма проблематично (для этого надо по меньшей мере уведомить разработчиков). На многих российских сайтах можно встретить характерную пиктограмму счетчика Rambler. Рейтинг Rambler Top 100 весьма популярен в русской части Интернета и часто используется многими компаниями как показатель авторитетности тех или иных ресурсов. Кроме того, Rambler предоставляет посетителям множество услуг: позволяет, например, увеличивать или уменьшать значимость отдельных слов в ключевой фразе с помощью символов "+" и "?", облегчает поиск в адресах URL, заголовках страниц и даже в нескольких абзацах в начале документа. С помощью данной системы можно легко находить "похожие" по тематике страницы и осуществлять повторный поиск адресов среди уже найденных. В ответ на запрос Rambler выдает пользователям список ссылок, снабжая каждую из них небольшой аннотацией, из которой можно узнать кодировку документа, его размер, дату создания/обновления, а также увидеть фрагмент предложения с искомой ключевой фразой.

RUSSIAN FTP SEARCH - Система Filez осуществляет поиск файлов на российских FTP-серверах. Русский FTP Search содержит информацию о 2 тыс. серверов в России, где представлено свыше 7 млн. файлов.

АПОРТ - Поисковая система "Апорт!" компании "Агама" разрабатывается при поддержке Intel (эти компании принимают участие также в создании русскоязычного каталога (Ау?!). Поиск в "Апорт!" ведется по базе данных, содержащей свыше 2 млн. документов. Система может искать необходимую информацию по различным словоформам введенных слов, исправлять в них ошибки, поддерживает поиск по фразам, в ней легко ограничить расстояние между фрагментами текста, заданное нужным количеством слов или фраз, а также указать допустимый временной период создания документов. Возможен поиск по адресам URL, заголовкам документов, подписям к картинкам, ссылкам и комментариям. Более того, система может осуществлять автоматический перевод с русского на английский и с английского на русский, причем не только ключевой фразы при запросе, но и полученной в результате информации. Итоги поиска упорядочиваются по частоте использования искомых терминов в документе. Вместе со ссылкой отображается фрагмент текста, где встречаются ключевые слова, а также дата и время последней модификации файла. Это позволяет определить, насколько документ по смыслу соответствует заданной ключевой фразе. Среди других возможностей этого сайта можно отметить индикатор загрузки, рейтинги самых употребимых ключевых слов и наиболее популярных серверов.

Кроме вышеперечисленных поисковых систем к собственно поиску косвенное отношение имеют русскоязычные поисковые каталоги: Aktivist, Download.ru, Hi!, List.ru, Russia on the Net, Shareware.ru, Stars, WebList, Автокаталог, Ау!, "Весь Русский Интернет", Виртуальная библиотека, "Желтые страницы Internet", Иван Сусанин, "Культура России", Мета, "Путь к себе", "Русский язык", "Суперскидки", "Улитка" и многие другие поменьше, в том числе и ваш покорный слуга: Total Control (http://www.totalcontrol.pochta.ru).

В числе нерассмотренных в этой статье поисковых систем остались - специализированные поисковые системы. Как правило, они представляют собой тематические порталы или сайты оснащенные какой-либо поисковой машиной, а чаще прибегающих к услугам мощных метапоисковых систем, например Google. Перепечатка статьи доступна только при наличии ссылки на http://www.aaa.hut1.ru/

Персональные инструменты
Образовательная галактика Intel Программа Intel 'Обучение для будущего' Программа 'Учимся с Intel' Летописи России Инициативы Intel в образовании