Поисковая система Одноклассники.ру (Андрей Шевчук)

Поисковая система
Одноклассников

Одноклассники в цифрах
• Что у нас есть:
– 185 млн аккаунтов;
– 7 млн групп;
– .....
• 5.5 млн пользователей онлайн;
• В секунду:
– 250 000 страниц, 260 000 фото, 150 Гбит;
– 8 000 сообщений и комментариев;
– 3 000 поисковых запросов.

1

Задачи поисковой системы

Видео
Музыка
Группы

Пользователи Подарки
групп
Пользователи
Помощь Сообщества

Интересы Мероприятия
Города

2

Выбор нового решения
• У нас уже работал поиск пользователей на MS SQL,
что упростило определение технических
требований.
• Нужен был OpenSource-проект, написанный на
Java.
• Тестировали Solr, но он нас совсем не устроил.
• Используя Solr, провели необходимые
эксперименты с Lucene.
• Прототип на Lucene превзошел ожидания.

3

Как устроен Lucene?
The bright Term DocId DocId Values
blue blue 1,2 1 333, Author A

Index Reader & Searcher & Query parser
butterfly bright 1,2 2 777, Author C
hangs on

Tokenizers & Filters & IndexWriter
butterfly 1
the breeze
breeze 1
hangs 1
Under blue
sky, in bright need 2
sunlight, search 2
one need sky 2
not search
around

Term DocId DocId Values
It’s best to best 1 1 555, Author C
forget the forget 1
great sky
great 1
and to retire
from every retire 1
wind sky 1
wind 1

4

Что мы реализовали в Lucene за 3 года:
• собственную репликацию;
• хранение индексов в памяти;
• выполнение поиска на индексах;
• загрузку хранимых полей;
• новые виды запросов.

5

От MS SQL к Lucene
• На Indexer хранится база с данными для индекса.
• Indexer готовит индекс и рассылает изменения.
• Query-сервера исполняют запросы на индексе.

Search Presentation

Event
Cache Search processing Get Entity cache Services

Update
Query

Query service Replication Indexer service + DB

6

Эксплуатация первой версии
• Если вам что-то не нравится при нагрузочном
тестировании, лучше найдите причину
• Если что-то нужно, сделайте это регулярным

Search Presentation

Event
Cache Search processing Get Entity cache Services

Update
Query


7

Мгновенный поиск и социальный граф
• Одновременный поиск по трём
большим индексам.
• Временные персональные
индексы, разделенные на: друзья,
друзья друзей, мои группы,
группы друзей и т.д.
• Первые выдачи из тулбара
полностью идут из персонального
индекса.
• Во многих разделах сайта есть
подсказки по друзьям,
работающие на персональном
индексе.

8

Семеро одного не ждут
• В персональный индекс
дольше всего собираются Get session for Schema
группы и сообщества.
• Быстрее всего собираются Schedule queries

друзья и друзья друзей. Execute queries
• Дольше всего идет поиск waitAll ()
waitFor (queries complete)

по пользователям. waitAtLeast (result items)

• Быстрее всего – по Reduce results

сообществам. Load results

Эффективность кэширования
• Кэшируются только 5% запросов.
• Попадание в кэш доходит до 60%.
• На топ 1000 запросов приходится < 2%.

Presentation
Search

Event
Cache Search processing
Get Get Entity cache
Services Services

Update
Query


10

Кэширование и нагрузка
Cache Cache

*2 *2 *2
Service Service Service

Service 0-19 Service 20-39 Service 40-59 Service 60-79 Service 80-99

37

11

Разделять или совмещать?
• Пока систем и опыта мало, лучше разделять:
+ системы не влияют друг на друга;
+ проще тестировать и выкладывать.

• Когда однотипных систем становится много,
лучше начать их объединение:
+ проще следить за работой;
+ везде одна версия и настройки;
- каждый раз нужно тестировать все;
- сложнее решать возникающие проблемы.

12

Поиск пользователей группы
• Пользователи и состав групп находятся в разных сервисах.
• Размеры групп варируются от нескольких человек до
миллионов.
• Для заиндексированых групп применяются обновления.
• Маленькие группы «забываются» через час.

Сервисы
Пользователи портала
Основная
память

Поисковая Внешняя
Группы система Маленькие память
группы

13

Поиск пользователей онлайн
• В первой версии искали в индексе пользователей
+ легко запустить;
+ надежно работает;
– медленно работает;
– сложная логика.
• Сейчас ищем по отдельному индексу, в котором
только пользователи онлайн
+ быстро работает;
+ простая логика;
– более 200.000 изменений в минуту;
– система зависит от индексирующего сервера.

14

Спасибо!

Алексей Шевчук
Разработчик поисковых систем
Одноклассники

Работа у нас: http://v.ok.ru

Поисковая система Одноклассники.ру (Андрей Шевчук)

Recommended

Recommended

More Related Content

Similar to Поисковая система Одноклассники.ру (Андрей Шевчук)

Similar to Поисковая система Одноклассники.ру (Андрей Шевчук) (20)

More from Ontico

More from Ontico (20)

Поисковая система Одноклассники.ру (Андрей Шевчук)

Editor's Notes