Страница 3. Читать онлайн «Про GOOGLE» Анна Кроули Реддинг

3 страница

Тема

2. Домашнее задание

Есть домашнее задание, а есть ДОМАШНЕЕ ЗАДАНИЕ. Есть то, с которым ты управишься за пять минут, а есть то, что определяет всю твою последующую жизнь. Будучи студентами в Стэнфорде, Ларри Пейдж и Сергей Брин столкнулись с самым эпичным домашним заданием – докторской диссертацией. Это как жениться – на своей домашке. Сначала ты предлагаешь свою тщательно обдуманную тему своим профессорам. С их утверждения ты ныряешь в самые глубины исследования и тратишь часы, дни, недели, месяцы – сколько бы ни потребовалось для совершения прорыва, обнаружения чего-то или расширения представления человечества о твоей теме. И если этого напряжения недостаточно, то последний шаг – представить свое исследование комиссии из профессоров. Профессоров, которые могут задать вопросы по содержанию твоей работы – даже бросить тебе вызов, – и тебе необходимо защитить свой труд!

Ларри знал, что ему крайне важно найти подходящую тему для своей диссертации. И он быстро обратил свое внимание на Всемирную сеть[2]. В 1995 всемирной паутине было всего 6 лет – совсем еще ребенок. Тогда, в древние времена Интернета, насчитывалось всего около 10 миллионов веб-страниц. И каждая из них загружалась по 30 секунд – целую вечность.

Сегодня Всемирная сеть состоит из 4,73 миллиарда веб-страниц (и это число постоянно растет).

Внимание, термины! «Веб» и «Интернет» это не одно и то же. Интернет – это гигантская сеть компьютеров, соединенная по проводам и беспроводным сигналам. Эта сеть всех сетей позволяет компьютерам обмениваться информацией. Веб – это весь контент – документы, файлы, папки, веб-страницы и другие ресурсы, доступные в Интернете, соединенные при помощи ссылок.

И все же, когда Ларри смотрел на Интернет, он видел не просто кучу корявых примитивных веб-страниц. Он видел математический график.

Каждая страница была точкой на графике. И прямо как точки на графике, соединенные линией, сайты были соединены ссылками.

Так у него возникли вопросы. Были ли важны эти ссылки? Что они могли рассказать о конкретной странице в Интернете? Ларри хотел знать больше.

И тогда он заметил кое-что интересное: взглянув на веб-страницу, было легко определить, сколько у нее было исходящих ссылок на другие сайты. Они были на виду, прямо на странице в гипертексте, готовые к тому, чтобы по ним кликнули. Ларри же было интересно, сколько других сайтов ссылались на эту конкретную страницу? Сколько у нее было входящих ссылок? В 1995 году никто это не знал.

Гипертекст – это текст, который направляет тебя на другой документ или веб-страницу. Зачастую он выделен другим цветом. Ты можешь навести курсор на гипертекст и кликнуть по нему, чтобы отправиться по ссылке к какому-либо документу, веб-странице или информации.

Ларри объяснил это репортеру таким образом: «У ранних версий гипертекста был серьезный недостаток: ты не мог пройти по ссылке обратно». Ларри хотел это исправить.

Обратные ссылки

Чтобы стать президентом класса, тебе нужно не перечислить наибольшее число лидеров, которых ты считаешь прекрасными, а набрать наибольшее число людей, отдавших за тебя свой голос. Другими словами, популярность определяется не тем, сколько людей тебе нравятся, а тем, скольким людям нравишься ты.

Изучая структуру Интернета, Ларри обнаружил схожую истину. Не имеет значения, на сколько сайтов ты ссылаешься. Что действительно важно, так это то, сколько сайтов ссылается на твою страницу. Чем больше сайтов со ссылками к тебе, тем релевантнее, значимее и авторитетнее твой сайт. Каждый ссылка с веб-страницы на твой сайт равна отданному голосу. Чем больше у страницы голосов, тем она важнее и тем, думается, информация в ней достовернее.

Эта мысль напомнила Ларри о том, о чем часто говорили в доме, где он рос: цитировании.

Представь, что ты ученый, который без устали трудится над исследованием в области изменения климата. Ты обнаруживаешь новые доказательства и подтверждаешь новые теории о том, как люди воздействуют на климат. Ты публикуешь эти теории в научном журнале. Дальше могут произойти две вещи. Твою работу попросту проигнорируют. Или же она может оказаться настолько значима, что ученые со всего света начнут ее обсуждать. Основываясь на твоем исследовании, другие ученые выведут его на новый уровень, проводя все новые разработки, эксперименты и приводя новые доказательства. И когда они опубликуют свои выводы, они упомянут в них тебя. Они процитируют твою работу, твое исследование, твой вклад в науку. Каждое такое упоминание называется цитированием. А что, если сотни и даже тысячи ученых цитируют твою работу? Это говорит о качестве и авторитетности исследования. С большим цитированием повышается важность работы.

Ларри интересовало, можно ли проанализировать обратные ссылки, чтобы определить авторитетность веб-страницы подобно тому, как цитирование придает силу исследованию. Это была его большая идея. Претворить ее в жизнь казалось непростым делом.

Чтобы достичь своей цели, Ларри было необходимо проводить поиски во Всемирной сети, исследовать веб-страницы, считать их обратные ссылки и упорядочивать результаты. Этому требовался продуманный математический алгоритм.

Математический алгоритм – это специальный набор шагов, которым необходимо следовать для решения какой-либо математической задачи или выполнения и завершения компьютерного процесса. Еще один способ представить алгоритм – посмотреть на него как на кулинарный рецепт. Пошаговое выполнение инструкций необходимо для достижения конкретного результата.

И у него на примете был как раз подходящий математический ум для этой работы: Сергей Брин. Оказалось, что Сергей тоже все еще был в поиске своей темы диссертации. Идея Ларри показалась ему захватывающей. Сергей объяснил: «Потому что она касалась сети, которая является отражением людских знаний, и потому что Ларри мне понравился».

Но это не было простой задачей. В конце концов, они собирались сосчитать и проанализировать все ссылки со всей всемирной паутины, все 10 миллионов страниц. Им бы понадобилось запустить поискового бота, собирать ссылки, хранить их, а затем еще и анализировать их ценность. Это значит, что нужно было скачать Всемирную сеть – всю целиком.

У поисковых ботов есть пара других крутых имен: сборщики и пауки! Боты это ничто иное, как программы, которые посещают веб-страницы и считывают их содержимое. Каждый сборщик (или бот) охотится на конкретную информацию. Как только он ее находит, паук создает базу данных или индекс того, что найдено, облегчая доступ к информации.

Пропускная способность, необходимая для такой задачи, должна была быть внушительной, намного шире, чем для обычного проекта студента Стэнфорда. Это было куда более крупное дело. Не говоря уже о том, что они собирались работать с кучей данных и им бы понадобился сервер, который бы смог вместить и хранить в себе столько информации.

Сервер – это компьютер со специальной задачей или набором задач. Есть много различных видов серверов. Некоторые, например, хранят файлы или управляют трафиком сети или обеспечивают загрузку веб-страниц. Предназначение сервера определяется его программным обеспечением.

Пропускная