В останні дні в блогах обговорюється нібито має місце цензура в пошуку по картинках Яндекса. Насправді у нас трапився технічний форс-мажор, хвороба росту.
На жаль, технічний збій в сервісах Яндекса інтерпретується як акт цензури не в перший раз - прихильниками різних партій і точок зору. Ми розуміємо, що підозри народжуються легко, а розсіюються довго, тому вважаємо за потрібне докладно розповісти, що саме сталося.
Раніше в пошуку по картинках нова пошукова база викладалася раз в тиждень. Щоб викласти нову пошукову базу, недостатньо просто завантажити картинки з усього інтернету. Для них ще потрібно побудувати зменшені копії, знайти і зв'язати між собою дублікати, видалити спам і т.д. Досить сказати, що розмір нашого картіночного індексу зараз - 3 терабайта, а зменшених копій картинок, які теж зберігаються у нас на серверах, - 25 терабайт.
На жаль, при такому різкому розширенні індексу трапилася хвороба росту. Створення зменшених копій, склейка дублікатів та інші процеси формування бази стали займати значно більше часу.
Ми сподівалися, що ось-ось впораємося і викладемо нову базу картинок, але недооцінили масштаб того, що відбувається. Ми занадто різко натиснули на педаль газу, але забули пристебнути ремені. В результаті накопичився великий розрив між датою, коли наш робот скачав картинку, і датою її появи в пошуку.
Таким чином, відставання скоротиться з 6 тижнів до 4, що все одно неприйнятно. Але вже через тиждень, коли відбудеться наступне збільшення бази, ми скоротимо цей розрив до 2 тижнів.
А скоро на Яндексі з'явиться пошук по зображеннях з усього інтернету з повністю актуальною базою.
Підписуйтесь на канал "SecurityLab" в Telegram, щоб першими дізнаватися про новини та ексклюзивні матеріали з інформаційної безпеки.