Поиск информации в Интернете/Подводные камни: различия между версиями

Материал из Викиучебника — открытых книг для открытого мира
Содержимое удалено Содержимое добавлено
Новая страница: « Поиск информации в Интернете: подводные камни. Этой публикацией пойдёт разгов…»
(нет различий)

Версия от 09:45, 27 мая 2009

                    Поиск информации в Интернете: подводные камни.

Этой публикацией пойдёт разговор о проблемах поиска в сети Интернет, с которыми неизбежно приходится сталкиваться пользователям - и рядовым, и поисковикам-профессионалам. Те из этих проблем, которые не лежат на поверхности, нередко дают о себе знать лишь "задним числом",после того как определенный этап поисковых работ завершен, и, возможно, исходя из его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой системы?Ответ довольно прост-отсутствие исчерпывающей информации о ней со стороны разработчика.Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко удается встретить в Сети поисковую систему, которая не обладала бы некоторыми "недокументированными" особенностями.Казалось бы, что пользователю необходимо не так уж много сведений, а именно:1) как происходит наполнение базы данных ИПС и каков ее объем;2)полный спектр возможностей поискового языка системы;3)основные особенности представления результатов поиска, прежде всего, алгоритма ранжирования записей из списка отклика на поисковый запрос.Увы, источником этой информации обычно является не документ,доступный с головной страницы поискового сервера,а разбросанные по Сети,книгам и компьютерным журналам публикации отдельных авторов. Причинами такого положения дел,по-видимому,оказывается не только небрежность разработчика,но и фактор, именуемый маркетинговой политикой.Проще говоря, предоставление поисковой системой наиболее полной информации о себе не всегда положительно сказывается на ее рейтинге.Тем не менее взять ситуацию под контроль в ряде случаях оказывается под силу пользователю.Выяснить особенности работы избранного поискового сервиса часто удается с помощью тестирования.Построение специальных тестовых запросов,быстро проясняющих именно тот аспект работы системы,который наиболее важен для текущей задачи,во многих случаях оказывается нетривиальным. Тому,как избежать некоторых неприятностей при работе,мы и посвятим наше обсуждение.В качестве примеров,иллюстрирующих изложение,будут рассмотрены широко известные поисковые системы Интернета.

                             Проблема:наполнение базы данных.

Любая поисковая машина или каталог регламентируют свою работу по сбору данных из Сети.Очевидно, что формирование поискового образа информационного объекта,или другими словами,его "отражения" в "зеркале" поисковой системы неизбежно связано с некоторыми искажениями.По сути главным при этом становится вопрос о том алгоритме,на основе которого создается поисковый образ.Объектом-оригиналом при этом может стать как Web-страница,так и файл "закрытого" формата,который не доступен для проникновения сканирующих программ,например,видео или аудио-запись.Определенный шаблон обычно используется и при построении поискового образа для физического лица или компании в момент их регистрации в поисковой службе. Отсечение, фильтрация информации от оригинала свойственны всем без исключения,в том числе и полнотекстовым системам глобального охвата и самого общего назначения.

Фильтрация может регламентироваться как на техническом, так и на лингвистическом уровне,однако задача у нее одна-при минимальных материальных затратах добиться реальной эффективности поиска.

В связи с этим на практике часто возникает вопрос-что становится причиной неудачного поиска?Отсутствие в Сети с высокой вероятностью на данный момент времени информации,релевантной запросу,или то,что эта информация потенциально не доступна для рассматриваемой поисковой системы. "Подводным камнем" этот аспект становится тогда,когда получен ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается неконтролируемой.Однако,если детали алгоритма фильтрации не известны, наиболее чувстельные потери данных возникают именно при использовании специализированных поисковых служб.