Банк рефератов содержит более 364 тысяч рефератов, курсовых и дипломных работ, шпаргалок и докладов по различным дисциплинам: истории, психологии, экономике, менеджменту, философии, праву, экологии. А также изложения, сочинения по литературе, отчеты по практике, топики по английскому.
Полнотекстовый поиск
Всего работ:
364150
Теги названий
Разделы
Авиация и космонавтика (304)
Административное право (123)
Арбитражный процесс (23)
Архитектура (113)
Астрология (4)
Астрономия (4814)
Банковское дело (5227)
Безопасность жизнедеятельности (2616)
Биографии (3423)
Биология (4214)
Биология и химия (1518)
Биржевое дело (68)
Ботаника и сельское хоз-во (2836)
Бухгалтерский учет и аудит (8269)
Валютные отношения (50)
Ветеринария (50)
Военная кафедра (762)
ГДЗ (2)
География (5275)
Геодезия (30)
Геология (1222)
Геополитика (43)
Государство и право (20403)
Гражданское право и процесс (465)
Делопроизводство (19)
Деньги и кредит (108)
ЕГЭ (173)
Естествознание (96)
Журналистика (899)
ЗНО (54)
Зоология (34)
Издательское дело и полиграфия (476)
Инвестиции (106)
Иностранный язык (62792)
Информатика (3562)
Информатика, программирование (6444)
Исторические личности (2165)
История (21320)
История техники (766)
Кибернетика (64)
Коммуникации и связь (3145)
Компьютерные науки (60)
Косметология (17)
Краеведение и этнография (588)
Краткое содержание произведений (1000)
Криминалистика (106)
Криминология (48)
Криптология (3)
Кулинария (1167)
Культура и искусство (8485)
Культурология (537)
Литература : зарубежная (2044)
Литература и русский язык (11657)
Логика (532)
Логистика (21)
Маркетинг (7985)
Математика (3721)
Медицина, здоровье (10549)
Медицинские науки (88)
Международное публичное право (58)
Международное частное право (36)
Международные отношения (2257)
Менеджмент (12491)
Металлургия (91)
Москвоведение (797)
Музыка (1338)
Муниципальное право (24)
Налоги, налогообложение (214)
Наука и техника (1141)
Начертательная геометрия (3)
Оккультизм и уфология (8)
Остальные рефераты (21697)
Педагогика (7850)
Политология (3801)
Право (682)
Право, юриспруденция (2881)
Предпринимательство (475)
Прикладные науки (1)
Промышленность, производство (7100)
Психология (8694)
психология, педагогика (4121)
Радиоэлектроника (443)
Реклама (952)
Религия и мифология (2967)
Риторика (23)
Сексология (748)
Социология (4876)
Статистика (95)
Страхование (107)
Строительные науки (7)
Строительство (2004)
Схемотехника (15)
Таможенная система (663)
Теория государства и права (240)
Теория организации (39)
Теплотехника (25)
Технология (624)
Товароведение (16)
Транспорт (2652)
Трудовое право (136)
Туризм (90)
Уголовное право и процесс (406)
Управление (95)
Управленческие науки (24)
Физика (3463)
Физкультура и спорт (4482)
Философия (7216)
Финансовые науки (4592)
Финансы (5386)
Фотография (3)
Химия (2244)
Хозяйственное право (23)
Цифровые устройства (29)
Экологическое право (35)
Экология (4517)
Экономика (20645)
Экономико-математическое моделирование (666)
Экономическая география (119)
Экономическая теория (2573)
Этика (889)
Юриспруденция (288)
Языковедение (148)
Языкознание, филология (1140)

Реферат: Технология поиска документальной информации в Интернет

Название: Технология поиска документальной информации в Интернет
Раздел: Рефераты по информатике, программированию
Тип: реферат Добавлен 02:58:30 14 августа 2005 Похожие работы
Просмотров: 3694 Комментариев: 3 Оценило: 3 человек Средний балл: 4 Оценка: неизвестно     Скачать

Министерство общего и профессионального образования РФ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ

Институт заочного обучения


КУРСОВОЙ ПРОЕКТ

По дисциплине: «Информационные технологии в управлении»

На тему: «Технологии поиска документальной информации в INTERNET »

Выполнено: Егорова А.С.

Студенческий билет № 3065

Группа 431


МОСКВА, 2001


СОДЕРЖАНИЕ (стр.):

1. ВВЕДЕНИЕ.

1.1. Что такое Internet (3).

1.2. Краткая история Internet (5).

2. БРАУЗЕРЫ: сравнительные характеристики Netscape Navigator и Microsoft Internet Explorer (6).

3. ПОИСКОВЫЕ СИСТЕМЫ (10).

3.1. Механизмы поиска (12).

3.2. Сравнительный обзор поисковых систем. Структура запроса (15).

4. ЗАКЛЮЧЕНИЕ (24).

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ (25).

1. ВВЕДЕНИЕ.

1.1. Что такое Internet .

Internet - глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 30 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличивается на 5-7%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.

Всплеск интереса к глобальной информационной сети Internet наблюдается сейчас повсеместно. В сложившихся условиях потребность в информации о сети Internet становится особенно острой. В настоящее время по Internet распространяется множество документов, касающихся как функционирования сети и работы в ней пользователей, так и связанных с различными сферами жизни: наукой, культурой, экономикой и т.д. При чём обновление информации в Internet, обширной разветвленной сети, которая включает в себя компьютерные узлы, разбросанные по всему миру, происходит, практически, в режиме реального времени.

В действительности Internet не просто сеть, - она есть структура, объединяющая обычные сети. Internet - это «Сеть сетей».

Чтобы описать сегодняшнюю Internet, полезно воспользоваться строгим определением. В своей книге "The Matrix: Computer Networks and Conferencing Systems Worldwide" Джон Квотерман описывает Internet как «метасеть, состоящую из многих сетей, которые работают согласно протоколам семейства TCP/IP, объединены через шлюзы и используют единое адресное пространство и пространство имен».

Для организации межсетевых соединений необходим соответствующий протокол .

Протокол - это набор договоренностей, который определяет обмен данными между различными программами. Протоколы задают способы передачи сообщений и обработки ошибок в сети, а также позволяют разрабатывать стандарты, не привязанные к конкретной аппаратной платформе. Все параметры - от скорости передачи данных до методов адресации при транспортировке отдельных сообщений - задаются протоколами, используемыми в данной конкретной сети.

В Internet базовым протоколом служит TCP/IP (Transmission Control Protocol/Internet Protocol). IP отвечает за адресацию сетевых узлов, а TCP обеспечивает доставку сообщений по нужному адресу. Эти мощные протоколы были предложены в 1974 г. Робертом Кэном, одним из основных разработчиков ARPANET, и ученым-компьютерщиком Винтоном Серфом, вице-президентом CNRI. Следует иметь в виду, что TCP/IP не единственный протокол, пригодный для объединения различных сетей. Internet ныне превратилась в многопротокольную сеть, интегрирующую другие стандарты. Основные среди них - стандарты взаимодействия открытых систем (OSI).

Предложенные Международной организацией по стандартизации (ISO) протоколы OSI получили широкое распространение в Европе. Системы, основанные на других протоколах, тоже подключаются к Internet через шлюзы. Например, BITNET - это сеть, которая использует для передачи данных свои собственные стандарты, однако, по крайней мере, частично, она доступна через шлюзы из Internet.

В Internet нет единого пункта подписки или регистрации; вместо этого вы контактируете с поставщиком услуг, который предоставляет вам доступ к сети через местный компьютер. Последствия такой децентрализации с точки зрения доступности сетевых ресурсов также весьма значительны. Среду передачи данных в Internet нельзя рассматривать только как паутину проводов или оптоволоконных линий. Оцифрованные данные пересылаются через маршрутизаторы , которые соединяют сети и с помощью сложных алгоритмов выбирают наилучшие маршруты для информационных потоков.

1.2. Краткая история Internet .

Вначале ничто не предвещало, что Internet станет общедоступной компьютерной сетью. Как и многие другие великие идеи, «Сеть сетей» возникла из проекта, предназначавшегося совершенно для других целей. Ее прародительницей стала сеть АRPANET, разработанная и развернутая в 1969г. компанией Bolt, Beranek, and Newman (BBN) по заказу Агентства передовых исследовательских проектов (ARPA) Министерства обороны США.

ARPANET объединяла учебные заведения, военные организации и их подрядчиков. Она была создана с целью помочь исследователям в обмене информацией, а также (что явилось одной из главных целей) для отработки методов поддержания связи в случае ядерного нападения.

Основатели ARPANET первоначально позволяли ученым только войти в систему и запустить программу на удаленном компьютере. Скоро к этим возможностям прибавились передача файлов, электронная почта и списки рассылки, обеспечившие общение исследователей, интересовавшихся одной и той же областью науки и техники. Но по мере роста ARPANET развивались и другие сети, и вскоре стала очевидной потребность в новых средствах связи.

Сравнительно недавно появилась новая технология Internet названная World Wide Web (WWW), что обычно переводится как «Всемирная паутина». Эта система была разработана, в основном, в Европейской лаборатории элементарных частиц в Швейцарии (CERN). Сеть предназначалась первоначально для физиков, но затем получила широкое признание.

WWW построена по технологии, в основе которой лежит принцип создания гипертекстовых документов (Web-страниц). Гипертекстовый документ заключает в себе ссылки на другие подобные документы, которые, в свою очередь, содержат ссылки на следующие, и т.д. Таким образом, они оказываются связанными между собой.

Для работы в WWW используется протокол HTTP (Hyper Text Transmission Protocol), а программы, позволяющие работать с соответствующими документами в Internet, называют просмотрщиками или браузерами .

2. БРАУЗЕРЫ: сравнительные характеристики Netscape Navigator и Microsoft Internet Explorer .

Документы Internet предназначены для отображения в электронном виде, причем автор документа не знает возможностей компьютера, на котором будут просматриваться документы. Поэтому был создан стандарт для описания и создания документов, расположенных на Web-страницах. Этот язык называется HTML (HyperText Markup Language – язык разметки гипертекста). Этот язык описывает логическую структуру документа, управляет форматированием текста и размещением вставных объектов.

Форматирование и отображение документа, описанного с помощью HTML, на конкретном компьютере производится специальной программой – браузером. Проще говоря, браузер предназначен для просмотра содержимого Web-страниц.

Основные функции браузеров следующие:

· установка связи с Web-сервером, на котором хранится документ, и загрузка всех его компонентов;

· форматирование и отображение Web-страниц в соответствии с возможностями компьютера, на котором браузер работает;

· предоставление средств для отображения мультимедийных и других объектов входящих в состав Web-страниц, а так же механизма расширения, позволяющего настраивать программу на работу с новыми типами объектов;

· обеспечение автоматизации поиска Web-страниц и упрощение доступа к страницам, посещавшимся раньше;

· предоставление доступа к встроенным или автономным средствам для работы с другими службами Internet.

В настоящее время на этом рынке доминируют два браузера: Navigator фирмы Netscape и Internet Explorer фирмы Microsoft.

Они предоставляют пользователям весьма схожий интерфейс и набор основных возможностей и ведут на этом рынке весьма жесткую конкурентную борьбу, постоянно обновляя предыдущие версии.

Ниже приводится описание основных возможностей этих браузеров.

Браузер Internet Explorer обеспечивает работу с WWW, предоставляет идентичные средства работы с локальными папками компьютера и файловыми архивами FTP, дает доступ к средствам связи с Internet. Для запуска программы можно использовать значок Internet Explorer на Рабочем столе или Главного меню. Кроме того, программа запускается автоматически при попытке открыть документ Internet или локальный документ в формате HTML.

Если соединение с Internet отсутствует, то после запуска программы появиться диалоговое окно установки соединения. При невозможности установки соединения сохраняется возможность просмотра в автономном режиме ранее загруженных Web-документов. При наличии соединения после запуска программы на экране появится основная страница, выбранная при настройке программы.

Далее можно работать с Web-страницами, просматривая их содержимое, сохраняя его на локальном диске и т.д. При этом можно открывать несколько окон, работая с несколькими Web-страницами.

Для более эффективной работы в Internet необходима настройка Internet Explorer . Параметры оптимальной настройки зависят от:

· свойств видеосистемы компьютера;

· производительности действующего соединения с Internet;

· содержания текущего Web-документа;

· личных предпочтений пользователя.

Настроить Internet Explorer можно как из самой программы, так и через Панель управления.

Если браузер неспособен отображать файлы определенного типа (*.exe, *.zip и т.д.) инициируется процесс загрузки данного файла на компьютер. Программа Internet Explorer 5.0 запускает мастер загрузки файлов, на первом этапе работы которого требуется указать открывать ли файл или сохранить его на локальном диске. Чаще всего файл сохраняется. Это позволяет использовать его в дальнейшей работе, не выходя в Internet. Этот процесс называется проще – скачать файл.

Netscape Navigator – один из лучших Web-браузеров, главная программа пакета Netscape Communicator. С его помощью можно просматривать содержимое Web-страниц, копировать файлы, искать различного рода информацию, работать с текстом и мультимедийными файлами Internet.

Оба браузера имеют свои преимущества. Например:

· Internet Explorer поставляется бесплатно в составе программного обеспечения фирмы Microsoft;

· Internet Explorer имеет более широкие возможности при настройке на конкретные вкусы потребителя и большее количество выполняемых функций;

· Netscape Navigator – имеет большую скорость при работе с Web-страницами.

Но в принципе, оба браузера выполняют похожие задачи и полностью удовлетворяют запросы пользователей при работе с Internet.

Одной из основных архитектурных особенностей Explorer является применение ActiveX - технологии, которая позволяет удобно конфигурировать, например, вид и возможности панели инструментов, что делает компьютер доступным даже для детей.

Оба браузера поддерживают возможность создания HTML-документов, при чём Explorer позволяет создавать темплайты , что так же упрощает создание web-страниц.

Internet Explorer поддерживает наиболее распространенные языки, облегчая пользовательский интерфейс, поддерживает все основные сетевые стандарты и предусматривает интерфейс без использования мыши и возможность изменять шрифт для удобства просмотра.

Что касается скорости просмотра Web-страниц, то Microsoft утверждает, что Navigator проигрывает в скорости, по крайней мере, на 30 процентов.

Netscape подчеркивает отличие Navigatora от других браузеров, а в особенности от Internet ExplОrer, количеством необходимой для него памяти, скоростью работы, значительными удобствами для создателей Web-документов, наличием системы, позволяющей компьютеру пользоваться телефонными услугами Internet в режиме реального времени. К тому же это позволяет избежать неудобств обычной телефонной связи.

Когда Netscape неожиданно появилась на рынке, Microsoft пришлось немедленно отреагировать, чтобы не потерять часть своего бизнеса. Без такой яростной конкуренции между двумя гигантами не было бы ни такого широкого использования Web, ни коммерческих Web-серверов, ни недорогих браузеров с графическими интерфейсами. Это соперничество породило недорогие продукты, которые, благодаря использованию протоколов Internet, способны к взаимодействию. Преодолеть несовместимость различных HTML проще, чем те трудности, которые могли бы возникнуть, считают оптимисты.

3. ПОИСКОВЫЕ СИСТЕМЫ.

Основная задача Internet – предоставление необходимой информации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помощью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируют по методам поиска.

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.

Поисковый индекс обеспечивает поиск по заданным ключевым словам. Обычно ключевые слова вводятся при заполнении специальной формы поиска, после чего нажимается кнопка «Поиск». В результате поиска формируется набор гиперссылок на Web-страницы, содержащий указанные термины. Обычно поисковые индексы выдают огромное количество искомых страниц.

В этом списке представлены ссыл­ки на различные Web-страницы, причем ссылки располагаются по степени убы­вания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, ко­торые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же - по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается иско­мое слово. Первыми в таком списке идут ссылки на те страницы, у которых клю­чевые слова встречаются уже в названии.

Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые индексы, но они точнее указывают на основные ресурсы Сети. Поэтому при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые индексы. Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных метода.

Программа Internet Explorer 5.0 имеет специальные средства организации поиска без явного обращения к поисковым системам. Можно получить доступ к одной из известных поисковых систем, просто щелкнув на кнопке «Поиск», слева появится окно поиска. Далее можно набрать ключевые слова для поиска и выбрать поисковую систему. Результаты поиска будут отражены в правой части окна обозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимое выбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке «Поиск» еще раз.

При работе с Internet ЕхрLorer можно проводить поиск прямо в поле «Ад­рес». Для этого в адресную строку вводиться слово или фраза для поиска. Под адресной строкой откроется окно со словом «Поиск» и искомой фразой. Internet Explorer начнет поиск с использованием заранее определенной системы поиска; при этом кнопка «Поиск» на панели инструментов нажмется сама.

Можно осуществить поиск нажав кнопку «Пуск» и выбрав опцию меню «Найти». Окно Internet Explorer откроется само с уже нажатой кнопкой «Поиск».

Если удалось найти то, что искали, но все же не совсем то, то в этом случае пригодится механизм связанных ссылок. Для любой Web-страницы можно просмотреть список ссылок, имеющих к ней отноше­ние, возможно, среди них окажется как раз то, что нужно. Чтобы просмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать в меню «Сервис» команду «Показать связанные ссылки».

После этого на панели инструментов нажать кнопку «Поиск», и в левой ча­сти экрана полнится окно, содержащее список ссылок, связанных с данной страницей. Нужно щелкнуть на одной из ссылок, и просмотреть в правом окне соответствующую Web-страницу.

Чтобы скрыть окно поиска, необходимо щелкнуть еще раз на кнопке «Поиск».

3.1. Механизмы поиска.

Поисковые cистемы обычно состоят из трех компонентов:

· агент (паук или кроулер), который перемещается по Сети и собирает информацию;

· база данных, которая содержит всю информацию, собираемую пауками;

· поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются.

Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.

Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированны, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Internet и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Общий поиск информации в Сети осуществляют программы, известные как пауки . Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в INTERNET, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.

Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения релевантности следующие:

1. Количество слов запроса в текстовом содержимом документа.

2. Тэги, в которых эти слова располагаются.

3. Местоположение искомых слов в документе.

4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос.

Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

3.2. Сравнительный обзор поисковых систем. Структура запроса.

В сети существуют различные способы поиска информации. Конечно же, если имеется справочник, в котором можно найти местонахождение интересующего вас источника конкретной информации, то, без всякого сомнения, следует этим и воспользоваться. Однако, к сожалению, такие издания далеко не всегда доступны. Кроме того, сеть является постоянно обновляющейся системой и поэтому находится в курсе всего нового с помощи периодики, а тем более с помощью литературы, не всегда представляется возможным. Для поисковых целей в Internet существуют специальные поисковые машины, располагающие значительными базами данных и имеющие связь с себе подобными.

Существенно полезными возможностями у них является наличие системы поиска, которая строится по принципу: от общего - к конкретному. Задавая общее понятие (в виде ключевого слова, нескольких слов или фразы, - в зависимости от сервисных услуг конкретной машины), а затем, с каждым новым поиском всё более и более конкретизируя его, можно получить интересующий результат. Поэтому далее будут рассмотрены несколько основных поисковых систем, использование которых весьма эффективно.

Исторически сложилось, что первой такой поисковой машиной являлась Alta Vista, поэтому с неё и начнём рассмотрение.

AltaVista . Наиболее интересная возможность AltaVista - это расширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Lycos. Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной.

Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой “and” либо “or”.

При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе.

Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа.

Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» - термин обязан быть в документе, и «-» - термин должен отсутствовать в документе.

Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.

Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS . WAIS является одной из наиболее изощренных поисковых систем INTERNET. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов.

Rambler . Поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ.

Rambler обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем - 5 запросов в секунду), сканируя 48 тысяч Web-серверов и используя несколько одновременно работающих программ-роботов.

Запрос может состоять из одного или нескольких слов, разделенных пробелами. Могут быть использованы как русские, так и английские слова и словосочетания. По умолчанию находятся только те документы, в которых встретились все введенные Вами слова.

Чтобы найти документы, содержащие хотя бы одно слово из запроса, используется логическая связка “or” или выбирается на странице детального запроса: «Слова запроса: любое». Чтобы исключить документы, содержащие те или иные слова, надо указать на странице детального запроса: «Исключить документы, содержащие следующие слова ...».

Все равно, с какой буквы написаны слова запроса: с большой или с маленькой. И при построении индекса, и при поиске по запросу все заглавные (большие) буквы «понижаются».

Слова запроса могут быть соединены логическими связками “and”, “or”. Вместо связок (или в сочетании с ними) могут использоваться также символы “&”, “|”.

Части запроса могут быть сгруппированы с помощью круглых скобок. Возможна многократная вложенность скобок в сочетании с логическими операторами.

Rambler умеет искать слова во всех формах (например, аминокислота, аминокислоты, аминокислотой и т. д.). Чтобы слово находилось во всех формах, перед ним надо поставить служебный символ “#”. В меню детального запроса такой режим может быть включен для всех слов: «Расширение запроса: все формы слов». Служебный символ “@” перед словом позволяет находить не только само это слово, но и однокоренные слова. В меню детального запроса символу “@” соответствует режим «Расширение запроса: все однокоренные».

По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы уменьшить «шум» в найденных документах. Если Вы не помните, как пишется слово, или хотите расширить запрос, можно использовать метасимволы “*” и “?” для обозначения произвольной части слова и произвольного символа.

Ограничить поиск частями документов, такими как название документа, его заголовок, URL и т.п., можно через меню детального запроса «Искать в...».

Можно ограничить поиск документами только на русском или только на английском языке. Для этого надо выбрать соответствующий режим в меню детального запроса «Язык документа...». По умолчанию поиск выполняется по документам на всех языках.

По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню «Сортировать по...» на странице детального запроса.

Вы можете также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать «От даты ... до даты ...».

Можно потребовать, чтобы Rambler возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга.

Режим «Ограничить расстояние между словами» может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой Вам последовательности.

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню «Выдавать по...» на странице детального запроса позволяет увеличить это число до 30 или 50. Меню «Форма вывода...» позволяет получать описания документов с увеличенной или уменьшенной подробностью.

Yandex . Yandex ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Yandex не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны москвы и московской области»), и вы получите результат - список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» - документы, содержащие слово «отозвали».

При этом поиск не ограничен лишь словами или фразами. Yandex отыщет по названию Web-страницу компании или файл с нужной картинкой.

Aport . Обычно запрос представляет из себя просто одно или несколько слов.

По такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.

Например, по запросу: яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег». Где в пределах документа расположены слова, в какой грамматической форме они находятся — не важно.

Стоит еще раз подчеркнуть важное и очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор «*».

Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие слово «ельцинизм». Воспользуйтесь запросом: ельцин*. Он позволит вам найти то, что вы хотите (а также документы со словами Ельцинище , ельцинцы , ельциненок и т.п), поскольку звездочка заменяет собой любое число любых букв.

Вы можете искать документы не только по всему русскоязычному INTERNET, но и по его части. Самый простой случай — поиск по определенному серверу. Например: url=www.intel.ru собака

По данному запросу будут найдены все документы на сервере www.intel.ru, содержащие слово "собака". Возможно, вам интересно, а что будет, если написать просто: url=www.intel.ru

В этом случае вы получите список всех документов, расположенных на указанном вами сервере

Вы можете ограничивать поиск и сильнее — одним из каталогов сервера. Например: url=www.intel.ru/sobaki/сенбернар

По данному запросу документы, содержащие слово «сенбернар», будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.

List . На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы - блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатиии на подкатегории раздела.

Щелкнув по любому из названий, Вы попадете в соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке. Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.

Допускается использованием языка запросов Yandex. Расположенная рядом с поисковой формой ссылка «Структура каталога» открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.

Помеченные символом “@” приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.

Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках. Показываемый ниже список ресурсов упорядочен в алфавитном порядке, но, выбрав соответствующую сортировку («По времени добавления» или «По переходам»), можно просмотреть их по порядку добавления в каталог (начиная с самых «свежих») или в зависимости от популярности среди посетителей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. Пометки RUS и ENG означают наличие на сайте страниц, соответственно на русском и английском языках.

4. ЗАКЛЮЧЕНИЕ.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначеной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ.

1. М. Пайк. Internet . СПб., 1996.

2. Пол Гилстер. Навигатор Internet. М., 1995

3. Энциклопедия Интернет, СПб, 2001

4. Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5. How the browsers compare//http://www.microsoft.com

6. Нэш К.//Война браузеров.-Сети.-1997г.-№1.-с.31.

7. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.33.

8. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.50.

9. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.100.

Оценить/Добавить комментарий
Имя
Оценка
Комментарии:
Где скачать еще рефератов? Здесь: letsdoit777.blogspot.com
Евгений22:13:21 18 марта 2016
Кто еще хочет зарабатывать от 9000 рублей в день "Чистых Денег"? Узнайте как: business1777.blogspot.com ! Cпециально для студентов!
13:26:30 24 ноября 2015
все как надо, респеркт вам всем вы так помогаете нам с работами,
01:03:18 27 декабря 2010Оценка: 5 - Отлично

Работы, похожие на Реферат: Технология поиска документальной информации в Интернет
Информационные технологии управления
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Тульский государственный ...
Очень часто в процессе работы с браузером возникает необходимость просматривать более чем одну страницу в разных окнах браузера - например, пока грузится одна страница, можно ...
Таким образом, реально поиск происходит не по серверам Internet, что было бы нереализуемо технически, а по базе данных поисковой машины, и отсутствие подходящей информации ...
Раздел: Рефераты по информатике, программированию
Тип: учебное пособие Просмотров: 2878 Комментариев: 2 Похожие работы
Оценило: 0 человек Средний балл: 0 Оценка: неизвестно     Скачать
Исследование использования программ дистанционного обучения для ...
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РОССИЙСКИЙ ХИМИКО-ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ им.Д.И. Менделеева Новомосковский институт (филиал) Кафедра ...
Просматривать страницы и запускать скрипты удобно по клавише F12, которая автоматически открывает страницу в выбранном заранее браузере.
И на компьютере пользователя должен быть установлен лишь web-браузер, поддерживающий отображение страниц с PHP-скриптами, например Internet Explorer 5 и выше.
Раздел: Рефераты по информатике, программированию
Тип: дипломная работа Просмотров: 5477 Комментариев: 2 Похожие работы
Оценило: 2 человек Средний балл: 2 Оценка: неизвестно     Скачать
FrontPage
Министерство образования Российской Федерации Воронежский Государственный Педагогический Университет Кафедра информатики и МПМ Выполнила: ст-ка физ ...
Открыв какой-либо сайт в браузере Microsoft Internet Explorer или Netscape Navigator, просто щелкните по любой ссылке на странице и, не отпуская кнопку мыши, перетяните ее в ...
Если вы захотите исключить из поиска некоторые страницы, запишите их прямо в папку _private каталога вашего сайта на Web-сервере (Frontpage no умолчанию не производит поиск по ...
Раздел: Рефераты по информатике, программированию
Тип: реферат Просмотров: 1680 Комментариев: 2 Похожие работы
Оценило: 1 человек Средний балл: 5 Оценка: неизвестно     Скачать
Международная реклама
Содержание Введение.. 3 Международная реклама в интернете..
Браузеры. Браузер (от англ. browser - обозреватель) - просмотрщик web-страниц, который выполняет загрузку с сервера требуемого пользователем документа; выполняет скачивание ...
3. Можно заплатить баннерной системе, поисковому серверу, каталогу или просто популярному web-сайту за показ баннеров рекламируемой страницы на их страницах.
Раздел: Рефераты по рекламе
Тип: реферат Просмотров: 1601 Комментариев: 7 Похожие работы
Оценило: 2 человек Средний балл: 5 Оценка: неизвестно     Скачать
Сравнительная характеристика браузеров
Курсовая работа СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА БРАУЗЕРОВ ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ГЛАВА 1. СОВРЕМЕННЫЕ БРАУЗЕРЫ 1.1. ПОНЯТИЕ БРАУЗЕРА 1.2. ИСТОРИЯ БРАУЗЕРОВ ...
Opera 6.05 поддерживает как многодокументный интерфейс MDI (Multiple Document Interface ), в котором новые web-страницы загружаются в основное окно браузера, а переключение между ...
Многооконный интерфейс Оперы позволяет моментально перемещаться по уже загруженным из сети страницам, сравнивая их содержание или просматривая ссылки в разных окнах, а наличие ...
Раздел: Рефераты по информатике, программированию
Тип: курсовая работа Просмотров: 8881 Комментариев: 2 Похожие работы
Оценило: 1 человек Средний балл: 3 Оценка: неизвестно     Скачать
Международная реклама
Содержание Введение Международная реклама в интернете Техминимум Виды международной рекламы в интернете Баннерная реклама Поисковые Системы и Каталоги ...
Браузеры. Браузер (от англ. browser - обозреватель) - просмотрщик web-страниц, который выполняет загрузку с сервератребуемого пользователем документа; выполняет скачивание ...
3. Можно заплатить баннерной системе, поисковому серверу, каталогу или простопопулярному web-сайту за показ баннеров рекламируемой страницы на их страницах.
Раздел: Рефераты по рекламе
Тип: реферат Просмотров: 103 Комментариев: 2 Похожие работы
Оценило: 0 человек Средний балл: 0 Оценка: неизвестно     Скачать
Методика обучения теме "Создание Web-страниц с помощью языка HTML ...
ДИПЛОМНАЯ РАБОТА По теме: "Методика обучения теме "Создание Web-страниц с помощью языка HTML" в курсе информатики для слабослышащих школьников 11-х ...
Язык HTML предназначен для формирования и оформления страниц текста, который может быть просмотрен в сети Internet специальными программами - браузерами.
<DFN> Internet Explorer</DFN> - это популярный WEB- браузер.
Раздел: Рефераты по педагогике
Тип: дипломная работа Просмотров: 6434 Комментариев: 1 Похожие работы
Оценило: 0 человек Средний балл: 0 Оценка: неизвестно     Скачать
Создание web-сайта
Курсовая работа по дисциплине "Программное обеспечение информационных технологий" на тему: "Создание web-сайта" СОДЕРЖАНИЕ ВВЕДЕНИЕ I. ОБОСНОВАНИЕ ...
Браузер Internet Explorer 4 позволяет просматривать Web - страницы, выполненные в соответствии с последними стандартами языка HTML.
В Internet Explorer 4 есть много функций, позволяющих сохранить путь к Web - страницам и впоследствии быстро к ним вернуться, можно преобразовать его списки так называемых закладок ...
Раздел: Рефераты по информатике, программированию
Тип: курсовая работа Просмотров: 3506 Комментариев: 1 Похожие работы
Оценило: 0 человек Средний балл: 0 Оценка: неизвестно     Скачать
Разработка мультимедийного сайта
Содержание ВВЕДЕНИЕ 1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 1.1 Понятие сети Интернет, история развития. Основные сервисы Интернет 1.2 Преимущества и направления ...
Созданные веб-страницы наиболее корректно отображаются в браузере Internet Explorer.
Для корректной работы поисковых систем и браузеров с веб-страницами в заголовочной части каждой страницы необходимо добавить метатэги, определяющие кодировку и язык страницы:
Раздел: Рефераты по информатике, программированию
Тип: курсовая работа Просмотров: 5084 Комментариев: 4 Похожие работы
Оценило: 0 человек Средний балл: 0 Оценка: неизвестно     Скачать

Все работы, похожие на Реферат: Технология поиска документальной информации в Интернет (6976)

Назад
Меню
Главная
Рефераты
Благодарности
Опрос
Станете ли вы заказывать работу за деньги, если не найдете ее в Интернете?

Да, в любом случае.
Да, но только в случае крайней необходимости.
Возможно, в зависимости от цены.
Нет, напишу его сам.
Нет, забью.



Результаты(151226)
Комментарии (1843)
Copyright © 2005-2016 BestReferat.ru bestreferat@mail.ru       реклама на сайте

Рейтинг@Mail.ru