Популярные русскоязычные поисковые системы для интернета. Какие есть поисковые системы? Поисковая интернет система - Bing

В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

Сущ., кол во синонимов: 3 искалка (9) ищейка (16) поисковик (13) Словарь синонимов AS … Словарь синонимов

поисковая система - поисковик Сайт, при помощи которого ищутся другие сайты. Поиск осуществляется путём ввода ключевых слов в окошко поиска. В отличии от каталогов, даже, если сайт не был предварительно зарегистрирован, его можно найти при помощи поисковика.… … Справочник технического переводчика

поисковая система - ieškos sistema statusas T sritis automatika atitikmenys: angl. searching system vok. Suchsystem, n rus. поисковая система, f pranc. système de recherche, m … Automatikos terminų žodynas

Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ

Управления, система автоматического управления (См. Автоматическое управление), в которой управляющие воздействия методом поиска автоматически изменяются т. о., чтобы осуществлялось наилучшее (в каком то смысле) управление объектом; при… … Большая советская энциклопедия

Управлення система автоматического управления, в к рой управляющие воздействия методом поиска автоматического изменяются т. о., чтобы осуществлять наилучшее управление объектом; при этом изменения хар к объекта или воздействий внеш. среды заранее … Большой энциклопедический политехнический словарь

СМП 1 редназначена для поиска спасателей, попавших в критические условия, связанные с угрозой для жизни, а также поиска десантированных грузов и различных объектов в условиях плохой видимости. В ее состав входят: радиоблок поиска активных… … Словарь черезвычайных ситуаций

автоматизированная информационно-поисковая система - 3.2.5 автоматизированная информационно поисковая система: ИПС, реализованная на базе электронно вычислительной техники Источник … Словарь-справочник терминов нормативно-технической документации

У этого термина существуют и другие значения, см. Апорт. Апорт … Википедия

Книги

  • Экстремальные задачи теории графов и Интернет. Учебное пособие , Райгородский Андрей Михайлович. Настоящая брошюра посвящена изучению различных экстремальных задач теории графов, (хотя бы частичное) решение которых может быть полезно при анализе данных. Она возникла на основе…
  • Экстремальные задачи теории графов и интернет , Райгородский Ф.М.. Настоящая брошюра посвящена изучению различных экстремальных задач теории графов, (хотя бы частичное) решение которых может быть полезно при анализе данных. Она возникла на основе…

Давайте рассмотрим самые популярные поисковые системы в России и Мире.

Самые популярные поисковые системы России

Яндекс

Яндекс является самой популярной системой поиска информации в «Рунете» . По безопасности занимает первое место! Выбрали 27 000 000 человек.

«Яндекс» Российский поисковый сервис появился в 1997-ом. Несомненный лидер русскоязычной части интернета. Имеет одну из лучших в мире систем регионального поиска. Есть возможность находить людей по соцсетям. Данная система отличается огромным количеством полезных дополнений :

  • Яндекс.Диск
  • Карты
  • Расписание авиарейсов, поездов и автобусов
  • Погода и многое другое.

Пользуется хорошим спросом у стран соседей, так как руководство сервиса учитывает требования пользователей из стран СНГ.

Mail

Mail.ru — перспективный почтовый сервис, у которого появляется большое количество поклонников.

Не так давно начал позиционировать себя в качестве поисковой системы. Возможна установка по умолчанию во время загрузки различных приложений.

Апорт

Достаточно распространенная поисковая система в русскоязычной части Интернета. По уровню популярности этому сервису принадлежит второе место в России.


Преимущества поисковой системы Апорт:

  1. Учитывается русскоязычная морфология.
  2. Можно выделять контекст отображаемых слов.
  3. Поиск по категориям.
  4. Есть функция уточнения результатов поиска в соответствии с серверами и имеющимися разделами каталога.
  5. Любой из запросов удастся перевести на английский язык и обратно.

Рамблер

Представляет собой первую информационно-поисковую систему , которая стала доступна на территории России. Раньше был основным конкурентом «Яндекса» так как используется поисковая технология Yandex. Учитывается морфология русского языка. В нашем рейтинге заняла почетное третье место.


Самые популярные поисковые системы в мире

Google

Google является мировым гигантом. Поэтому нет ничего удивительного, что этой поисковой системе принадлежит основное количество мирового трафика.


Поисковая система Google

Очень простая и качественная живая выдача и огромное количество на полезных инструментов:

  • Документы;
  • Блоги;
  • YouTube;
  • Социальные сети;
  • Google + и много много интересного.

Baidu

Baidu — китайская поисковая машина. Китай является самым населенным местом на Земле. Также нужно отметить полностью закрытый доступ к Всемирной паутине.


Этому «поисковику» отдали предпочтение миллионы людей. Будем исходить из того, что у них просто нет выбора, но, тем не менее, находит эта система судя по отзывам много интересной и полезной информации.

Bing

Bing — поисковая система от компании Microsoft. Пользуется спросом в Европе и США.


Если сравнивать с Google , отличается низким трафиком. Устанавливается как стандартный поиск в .

Yahoo!

На сегодняшний день является каталогом ресурсов и «поисковиком» в одном лице, сервис работает как самостоятельный проект. По уровню популярности заняла четвертую позицию нашего рейтинга.

Преимущества поисковой системы Yahoo:

  1. Может искать информацию различного рода на русском языке.
  2. Используется каталог полезных ссылок на сетевые ресурсы в различных государствах мира.

AltaVista

Еще одна поисковая разработка, которая ищет нужную информацию в Интернете. Уровень популярности позволил расположиться на пятой строчке.

Преимущества поисковой системы AltaVista:

  1. Имеется поддержка русскоязычного пространства.

Lycos

Распространенный каталог сетевых ресурсов. В основе сайта используется поисковая система вместе с рубрикатором веб-порталов. Предоставляет ссылки на различные локализованные издания каталога. Используется английский язык . По уровню популярности находится на шестом месте нашего рейтинга.


Украинский поисковик Мета

Единая система поиска украинского происхождения. Уровень известности позволил расположиться на седьмом месте.

Преимущества поисковой системы Мета:

  1. Сервис учитывает морфологические особенности как русского, так и украинского языков.
  2. При необходимости можно выделять в контексте различные найденные слова.
  3. Также удастся перевести результаты поиска и запросы выдачи на русский, украинский и английский языки.

FTP-Search

«Файловая поисковая система». Входит в сотню самых больших FTP-серверов на территории РФ. Уровень популярности соответствует восьмому месту.


Что это

DuckDuckGo - это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo, Bing, «Википедии».

Чем лучше

DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.

DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.

Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo

Зачем это вам

Все крупные поисковые системы стараются персонализировать поисковую выдачу на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.

Формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках, тогда как Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.


Что это

not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный .

not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на Google (достаточно посмотреть на стартовую страницу).

Чем лучше

Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.

Зачем это вам

В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И их число будет расти по мере того, как ужесточается контроль властей над содержанием Сети. Tor - это своеобразная сеть внутри Сети со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.

3. YaCy

Что это

YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.

Чем лучше

Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.

Зачем это вам

Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy - это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.

4. Pipl

Что это

Pipl - система, предназначенная для поиска информации о конкретном человеке.

Чем лучше

Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.

Зачем это вам

Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.

Что это

FindSounds - ещё один специализированный поисковик. Ищет в открытых источниках различные звуки: дом, природа, машины, люди и так далее. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнять поиск.

Чем лучше

В выдаче только звуки и ничего лишнего. В настройках можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск по образцу.

Зачем это вам

Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это мы выбрали только из доступных русскоязычных запросов. На английском языке спектр ещё шире.

Если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?

Что это

Wolfram|Alpha - вычислительно-поисковая система. Вместо ссылок на статьи, содержащие ключевые слова, она выдаёт готовый ответ на запрос пользователя. Например, если ввести в форму поиска «сравнить население Нью-Йорка и Сан-Франциско» на английском, то Wolfram|Alpha сразу выведет на экран таблицы и графики со сравнением.

Чем лучше

Этот сервис лучше других подходит для поиска фактов и вычисления данных. Wolfram|Alpha накапливает и систематизирует доступные в Сети знания из различных областей, включая науку, культуру и развлечения. Если в этой базе находится готовый ответ на поисковый запрос, система показывает его, если нет - вычисляет и выводит результат. При этом пользователь видит только и ничего лишнего.

Зачем это вам

Если вы, например, студент, аналитик, журналист или научный сотрудник, то можете использовать Wolfram|Alpha для поиска и вычисления данных, связанных с вашей деятельностью. Сервис понимает не все запросы, но постоянно развивается и становится умнее.

Что это

Метапоисковик Dogpile выводит комбинированный список результатов из поисковых выдач Google, Yahoo и других популярных систем.

Чем лучше

Во-первых, Dogpile отображает меньше рекламы. Во-вторых, сервис использует особый алгоритм, чтобы находить и показывать лучшие результаты из разных поисковиков. Как утверждают разработчики Dogpile, их системы формирует самую полную выдачу во всём интернете.

Зачем это вам

Если вы не можете найти информацию в Google или другом стандартном поисковике, поищите её сразу в нескольких поисковиках с помощью Dogpile.

Что это

BoardReader - система для текстового поиска по форумам, сервисам вопросов и ответов и другим сообществам.

Чем лучше

Сервис позволяет сузить поле поиска до социальных площадок. Благодаря специальным фильтрам вы можете быстро находить посты и комментарии, которые соответствуют вашим критериям: языку, дате публикации и названию сайта.

Зачем это вам

BoardReader может пригодиться пиарщикам и другим специалистам в области медиа, которых интересует мнение массовой по тем или иным вопросам.

В заключение

Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко .


Сергей Петренко

Бывший генеральный директор «Яндекс.Украины».

Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.

Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.

Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.

«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии. Наверняка вы тоже знаете подобные проекты. Поделитесь с нами - обсудим.

Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

История развития Российского интернета (Рунета) официально ведет отсчет с 1994 года. Именно тогда была зарегистрирована доменная зона.ru, и начали появляться первые сайты, многие из которых впоследствии выросли в популярные порталы.

Библиотека Мошкова, информационное агентство «РосБизнесКонсалтинг», студия Артемия Лебедева – все эти ресурсы были основаны в середине 90-х годов прошлого века.

Как появились первые поисковые системы

Довольно долго «население» Рунета ограничивалось небольшим количеством этих пионеров сетевых технологий. Их было настолько мало, что понятия «поиск» в те времена просто не существовало.

Большинство нужных сайтов можно было сохранить в закладках браузера, а для остальных существовали каталоги, где все ссылки были сгруппированы по нескольким основным категориям. Первым таким каталогом стал проект Russia on the Net (http://www.ru), чуть позже появились DMOZ, Yahoo и Яндекс.Каталог.

Однако с течением времени количество пользователей сети интернет увеличивалось, больше становилось и число сайтов, созданных для того чтобы эти пользователи могли их посещать и получать нужную им информацию.

Постепенно базы данных каталогов выросли настолько, что найти что-либо вручную стало очень сложно. Тогда и появилась идея автоматизировать процесс поиска и создать для этого специализированный интерактивный сервис.

Спрос всегда рождает предложение, поэтому в интернете один за другим стали появляться поисковые проекты от разных авторов. Одни из них, такие как WebCrawler, Lycos, InfoSeek и другие не смогли добиться каких-либо серьезных успехов и через некоторое время почили в безвестности на бескрайних просторах Всемирной паутины.

А вот для других, более удачливых компаний, все сложилось намного лучше – ведущие современные разработчики поисковых технологий образовались именно в этот период и за прошедшие годы сумели добиться ошеломляющих результатов.

Что такое поисковая система

Современный поисковой движок представляет собой сложнейший механизм, который требует огромных ресурсов (как людских, так и материальных) для поддержки текущей работы и устойчивого развития.

В основе формирования поисковой выдачи лежит пресловутая формула ранжирования, которая учитывает сотни различных факторов, начиная от внутреннего устройства сайта и текстов его страниц и заканчивая внешними ссылками, привлекательностью коммерческих предложений, размещенных на ресурсе, и особенностями поведения пользователей, перешедших на него с поиска.

Еще в 2006-2007 году представители Яндекса заявляли о том, что для расшифровки их алгоритма нужен целый научно-исследовательский институт, потому что их поиск основан на учете более чем 800 различных факторов. С тех пор прошли годы, формула ранжирования усложнилась на несколько порядков, а на факторы, которые оказывают наибольшее воздействие на результаты выдачи, воздействовать стало практически невозможно.

Так что за внешней простотой главной страницы и быстрой реакцией Яндекса или Гугла на введенную вами поисковую фразу скрывается кропотливая работа тысяч людей и огромные финансовые вложения в инфраструктуру, оборудование и человеческие ресурсы.

При этом очевидно, что компании-лидеры на сегодняшний момент обеспечили себе такое превосходство над теми, кто захочет составить им хотя бы какую-нибудь конкуренцию, что цена входного билета на этот рынок измеряется миллиардами долларов.

Подтверждением такого положения дел может служить история попыток проникновения на поисковой рынок известнейшей и богатейшей софтверной компании Microsoft. Ее поисковая система Bing на протяжении более чем десяти лет позиционировалась, как серьезный конкурент ведущим игрокам, для чего в нее вкладывались огромные средства.

И только в последние годы эти вложения начали давать первые результаты, хотя удовлетворительными их назвать все равно можно лишь с очень большим преувеличением: доля Bing на российском рынке на момент написания статьи составляла менее одного процента.

Другой пример, хорошо иллюстрирующий сделанные ранее выводы – российский поисковик Нигма. Его создатели выбрали стратегию нишевого маркетинга. Видимо, хорошо понимая, что в открытом поле общего поиска конкуренцию столпам рынка оказать практически невозможно, разработчики алгоритма пошли по пути предоставления услуг поиска по образовательным структурам в области химии, математики, физики и другим наукам.

Однако целевая аудитория такого проекта, очевидно, является немногочисленной, что однозначно отражается и на ее посещаемости: по данным счетчика Liveinternet количество пользователей этой системы составляет всего одну десятую процента.

  1. Безусловным лидером рейтинга является компания Яндекс. По данным того же счетчика Яндекс имеет «контрольный пакет акций » на рынке поисковых систем: в июле 2014 доля поисковой машины составила более 52%.
  2. На втором месте уверенно закрепился Гугл – 38%.
  3. Третье место с довольно большим отрывом занимает портал mail.ru. Некоторое время назад популярный сайт, видимо, занимался поисками старшего брата, которому можно подороже продаться – на их поисковую площадку поочередно интегрировался движок Яндекса и Гугла. Но с 2013 года компания взяла курс на самостоятельное развитие, и теперь на сайте реализован поисковой алгоритм собственной разработки. Правда, это никак не сказалось на доле рынка системы, которая, по всей видимости, определяется в основном раскрученностью бренда и привлекательностью сервисов, представленных на площадке. На протяжении последних лет посещаемость сервиса go.mail.ru колеблется вокруг отметки 7%.

Все остальные поисковики, включая некогда могущественный Рамблер, могут расцениваться разве что, как естественный фон – все они не оказывают существенного влияния на распределение мест в топе поисковых систем, находясь на уровне 0,1-0,7 процентов рынка.

Анализ рынка российского интернет-поиска

Рынок поисковых систем в России является весьма специфическим. Для его описания можно использовать две характеристики: концентрированный и слабо конкурентный. Действительно, доля трех основных игроков превышает 97%, что говорит об их подавляющем преимуществе над всеми остальными.

Доминирующее положение имеет российский поисковик Яндекс. Как мы уже говорили, его доля превышает 50%. В этом наша страна является уникальной: только у нас, в Китае и в Чехии национальные поисковики оказывают ощутимую конкуренцию мировому гиганту – компании Гугл.

По количеству обработанных поисковых запросов Яндекс занимает четвертое место в мире. При этом если первое место Гугла в этом списке вряд ли можно подвергнуть обоснованному сомнению, то второе место китайского Baidu вызвано лишь огромной численностью этой страны. Третье место – у компании Yahoo, имеющей пока двукратный перевес относительно российского монополиста.

По правилам европейского рынка Яндекс действительно можно назвать монополистом – такое определение присваивается там любой компании, доля рынка которой превышает 35%.

В нашей стране такое положение вещей называется доминированием и не наказывается до тех пор, пока не доказан факт злоупотребления имеющимся преимуществом. Понятно, что в интернет-среде факт злоупотреблений подтвердить очень сложно.

Как определить долю поисковика в общем трафике

Объективную оценку данного показателя получить довольно просто. Дело в том, что подавляющее большинство российских сайтов имеет установленные счетчики ведущего оператора интернет-статистики Liveinternet.

Конечно, эти счетчики ставят не все сайты, к тому же в приведенной далее ссылке не учтены доменные зоны.su и рф. Но все же приведенную выборку можно считать вполне репрезентативной, она учитывает все основные тематики, регионы и типы сайтов, имеющихся на сегодняшний день в Рунете.

Итак, посмотреть текущее положение вещей можно по ссылке: http://www.liveinternet.ru/stat/ru/searches.html?date=2014-07-31;period=... .

Это полная сводка по количеству посетителей, переходивших на сайты, зарегистрированные на российских пользователей за июнь и июль 2014 года.

Выводы очевидны. Анализ положения вещей мы уже привели в предыдущем разделе.

Характеристика основных поисковых систем России

Яндекс

Появление этого поисковика на рынке очень хорошо иллюстрирует ситуацию в стране в то время, когда он начал приобретать современные очертания. Недаром Яндекс называют зеркалом Рунета – по-видимому, это определение можно расширить и на объективную реальность.

Развитие компании в чем-то очень схоже с эволюцией всего общества, так что в какой-то степени национальный лидер – это зеркало всей страны конца 20-го века.

Для того чтобы проиллюстрировать такое смелое утверждение обратимся вкратце к истории возникновения компании и поискового движка Яндекс.

Времена после перестройки характеризуются серьезной переоценкой ценностей наиболее активной частью общества и появлением на политической и деловой арене новых энергичных людей, объединенных главной в их жизни идеей: модернизировать условия существования себя и своей страны с целью обеспечения достойного уровня жизни для всех, кто разделяет их убеждения.

Одним из корифеев той эпохи является Аркадий Волож, который сумел объединить вокруг себя лучших специалистов-трудоголиков, заложивших основу будущей поисковой системы.

Яндекс, наверное, никогда не стал бы зеркалом Рунета, если бы не потрясающее чутье Аркадия Воложа, который сумел разглядеть главную перспективу того времени именно в построении российского поисковика.

Для реализации своей идеи он сумел перенаправить в этот проект финансовые потоки, образовывавшиеся от бартерных сделок по обмену партий импортируемых в нашу страну компьютеров в обмен на эшелоны кубанских тыквенных семечек.

Конечно, большие проекты не делаются без команды единомышленников. И тут основателю Яндекса повезло – он сумел привлечь на свою сторону талантливого и подававшего очень большие надежды физика Илью Сегаловича, с которым он был знаком еще со школьной скамьи.

Трудно сказать, что явилось последней каплей, перевесившей для будущего великого ученого все перспективы блестящей научной карьеры. Очень может быть, что решающую роль сыграла настоящая одержимость и талант убеждения бессменного директора Яндекса, но Илья стал техническим директором компании и внес неоценимый вклад в ее развитие.


Именно он стал автором названия и логотипа, который сейчас известен всем, кто хоть раз заходил в интернет. Сегалович увлекся идеей морфологического анализа фраз на русском языке и возможностью классификации текстов на основе правил построения грамматических конструкций.

В результате появилось выражение «Yet another index» – «еще один индекс», которое в сокращенном варианте с легкой руки основателей поисковой машины стало словом Yandex. В дальнейшем, чтобы подчеркнуть основное предназначение поисковой машины – искать в русскоязычном сегменте интернета – логотип преобразовали в Яндекс.

Илья Сегалович посвятил всю свою жизнь становлению и развитию этого проекта. К сожалению, в 2013 году его не стало, но дело его живет, Яндекс наращивает свое превосходство над конкурентами, постоянно совершенствуя алгоритм поиска, основы которого заложил его покойный директор по технологиям и разработке.

Гугл

Поисковая система Гугл была основана на год раньше Яндекса, но на российском рынке появилась лишь в 2004 году. Конечно, за эти годы Яндекс преуспел в адаптации своего поиска под специфику нашей страны.

Несмотря на то, что довольно значительное количество интернет-пользователей на вопрос, ответ на который они не знают, предлагают «погуглить», а не «спросить у Яндекса», основной проблемой мирового гиганта является недостаточный учет морфологии русскоязычных текстов, вследствие чего ответ на запросы пользователей часто является неполным или немного искаженным.

Можно долго спорить о том, чей поиск лучше и с какой системы идут более мотивированные (или «горячие») клиенты. Но, как нам кажется, типичная картина для российского пользователя выглядит следующим образом: сначала запрашивается «зеркало Рунета», а, если результаты его поиска оказались не релевантными (а такое, к сожалению, случается довольно часто), запрос перетранслируется в Гугл.


Глобальные апдейты Гугла происходят гораздо реже, чем у Яндекса. Зато они изменяют выдачу настолько серьезно, что многие авторитетные сайты, годами находившиеся в топе, оказываются в конце первой сотни результатов выдачи.

Так, например, последняя версия алгоритма «Панда» здорово прошлась по некоторым ведущим интернет-магазинам, затронув даже казавшихся неприкосновенными amazon.com и других.

В 2013 году компания наконец-то перестала транслировать чужой поиск на своей площадке и реализовала свой вариант поисковой машины по адресу go.mail.ru.

Этот шаг можно только приветствовать, поскольку в перспективе поисковик от mail.ru может оказать серьезное сопротивление дуэту лидеров, который пока может немного расслабиться, не чувствуя порывистого дыхания конкурентов за своей спиной.

Доля данной поисковой системы сейчас не превышает 7%, но имеет хорошую перспективу к увеличению за счет развития социальных сервисов, предоставляемых компанией: Одноклассники, Мой Круг, почта и т. д.

Поисковики с долей рынка менее 1%

В этой группе сосредоточены в основном системы, которые так и не смогли пробиться в элиту российского поиска. Среди них особое положение занимает компания Рамблер, когда-то уверенно занимавшая второе место и демонстрировавшая очень многообещающие тенденции.

Рамблер

Появившись в 1996 году, как детище программистов наукограда Пущино под руководством талантливого энтузиаста Дмитрия Крюкова, Рамблер сразу стал лидером рынка поисковых систем. В те времена Яндекса еще не было, а Гугл только начинал свое шествие по территории Америки и близлежащих стран.

Казалось бы, такая фора должна была помочь «бродяге» (а именно так переводится с английского слово Rambler) получить заметные конкурентные преимущества в развитии.

Но то ли внутренние конфликты в компании, то ли отсутствие четко выраженной стратегии привели к тому, что сейчас Рамблер транслирует поиск Яндекса и больше известен, как агрегатор некоторых популярных сервисов, включая рейтинг сайтов Rambler Top100

Бинг

Он же MSN Search, Live Seacrh, Windows Live Seacrh – продукт компании Microsoft, отчаянно борющейся за место под солнцем на рынке поисковых систем. Это один из немногих сервисов, использующих свой собственный движок.

Результаты поиска вполне приемлемы, главной проблемой сайта, по-видимому, является невысокая известность среди пользователей.

Апорт

Еще один пример печальной судьбы некогда одного из лидеров рынка. Были времена, когда этот поисковик твердо держал третье место после Яндекса и Рамблера, а в его каталог вебмастера стремились попасть так же активно, как в DMOZ или Яндекс-каталог.

Сейчас на сайте размещен интернет-магазин популярных бытовых товаров. Поиск на апорте если и остался, то спрятан где-то в глубинах ресурса, на одном из его поддоменов.

Что нужно, чтобы написать свой собственный поисковик

Для того чтобы ответить на этот вопрос, необходимо хорошо представлять себе, что такое поисковая система и как она работает. Частично мы уже рассмотрели основные принципы построения формулы ранжирования сайтов в поисковой выдаче. Кроме этого, необходимо отметить следующие моменты:

Главная задача поисковой машины – дать ответ на запрос пользователя. Ответ должен быть четким и актуальным, иначе пользователь уйдет в другие системы, даже несмотря на невысокую конкуренцию в этой отрасли.

Чтобы дать такой ответ, поисковому алгоритму необходимо в момент его формирования просмотреть содержимое многих миллиардов страниц в сети в поисках наиболее подходящих для конкретного запроса. Для этого поисковые системы создают собственные базы данных, которые называются индексами и хранят там всю необходимую информацию.

Индекс формируется путем постоянного сканирования сети в поисках новых появившихся сайтов, а также изменений на уже проиндексированных страницах. Выполняют эту работу специальные программы, называемые роботами-индексаторами.

Они круглосуточно ходят по сайтам и считывают обновленную информацию. Организация работы таких роботов требует построения большого дата-центра на несколько тысяч мощных компьютеров со всей инфраструктурой, начиная от бесперебойного питания и охлаждения и заканчивая регулярным обслуживанием и модернизацией.

Пользователи хотят получать быстрые и адекватные ответы на свои запросы. Поэтому современная поисковая система должна учитывать не только характеристики известных ей сайтов, но и предпочтения, особенности поведения и географическое положение каждого своего клиента.

Для этого алгоритмы поиска должны обладать элементами искусственного интеллекта и уметь самостоятельно обучаться в процессе своей работы. Очевидно, что для написания такого движка нужен большой коллектив программистов высочайшего класса.

Учитывая, что ведущие поисковики уже решили все эти проблемы и обладают всем необходимым потенциалом для дальнейшего развития, стоимость вхождения на этот рынок представляется практически заоблачной.

Поэтому вряд ли в ближайшее время может появиться новый игрок, способный быстро занять достойное место в ряду существующих систем. Хотя, если такое вдруг случится, выиграют все – и сами поисковые системы, которые получат новые стимулы для еще большего совершенствования, и мы, капризные рядовые пользователи, которым всегда чего-то не хватает и хочется, чтобы поиск с каждым днем становился лучше и качественнее.