Ноу Інти, лекція, синдикація і аггрегірованіе веб-контенту

Анотація: Мета лекції: огляд специфікацій і технологій, спрямованих на підвищення доступності (видимості) актуальною і релевантною для кінцевих користувачів інформації, а також поліпшення usability при роботі з цією інформацією.

Користувач може отримувати інформацію з сайту без необхідності його відвідування декількома способами.

Другий спосіб - використання спеціальних програм, які відстежують зміни коду сайту (наприклад для автоматизованого читання форумів і груп новин). Такі рішення слабо поширені і недостатньо популярні.

Третій варіант передбачає поштові розсилки в HTML-формат. Вони популярні для складання прес-релізів і різних маркетингових матеріалів, проте оперативно отримувати дані таким способом неможливо (при цьому створюється високе навантаження на поштові сервери, характерні затримки в проходженні пошти). Крім того, цей варіант є вразливим для спаму.

Хоча RSS і веб-фрагменти засновані на Windows RSS Platform. між ними є принципові відмінності:

Таким чином, якщо користувача цікавить історія подій, то краще користуватися RSS-каналами, якщо тільки поточна інформація - веб-фрагментами.

Веб-синдикація на основі RSS

Веб-синдикація - форма синдикації при якій вміст веб-сайту надається іншим численним веб-сайтів. Інакше кажучи, веб-синдикація означає створення доступних з сайту веб-потоків (feed), що надають всім користувачам у формі короткої зведення інформацію про новий вмісті, який з'явився на сайті (це можуть бути новини, повідомлення з форуму і ін.).

Для приймаючої сайту веб-синдикація є ефективним способом розміщення більш вичерпної і своєчасної інформації на своїх сторінках.

Взаємодія веб-потоків і агрегаторів відбувається в наступному порядку:

  • Провайдер контенту публікує посилання на потік зі свого сайту.
  • Користувач може зареєструвати це посилання за допомогою програми-агрегатора на своєму комп'ютері.
  • Програма-агрегатор потім опитує всі сервери, що входять в список зареєструватись потоків, з метою отримання нового контенту.
  • При наявності нового контенту програма-агрегатор або інформує користувача про наявність такого або відразу ж завантажує його.

Контент веб-потоку зазвичай являє собою веб-сторінки. гіперпосилання або мультимедіа. Витяг контенту з сайту в формі веб-потоку зазвичай проводиться засобами самого веб-сайту. Однак, не всі веб-сайти можуть мати веб- потік. В цьому випадку можуть бути використані кошти сторонніх агентів. Веб-потік - це веб-документ, зазвичай в XML форматі, що містить тематичні елементи, які містять посилання на більш повну версію матеріалу. Є зручним інструментом для доставки структурованої інформації. Користувачі можуть підписуватися на веб-потоки за допомогою агрегаторів або програм для читання потоків, які комбінують вміст кількох веб-потоків для відображення на одній сторінці (або декількох послідовних сторінках).

Деякі з веб-браузерів містять вбудовані можливості для аггрегірованія потоків. Це робиться шляхом простого введення URL веб-потоку або кліком на гіперпосиланням в браузері. Формат веб-потоків не призначений для безпосереднього читання користувачем, оскільки дозволяє автоматично переносити контент з сайт на сайт. Для представлення інформації з веб-потоку зазвичай використовуються 2 формату: RSS і Atom.

Якщо порівнювати веб- потік з більш традиційної поштової технологією доставки часто оновлюваної інформації, то можна вказати на наступні переваги першого:

Агрегатор дозволяє об'єднати інформацію з різних потоків в одному вікні веб-браузера або веб-додатки. Таке додаток називається RSS-каналом. новинний стрічкою. агрегаторомпотоков або пошуковим агрегатором. Подкастинг-агрегатори можуть автоматично завантажувати медіа-файли. Об'єднаний контент агрегатор отримує і інтерпретує зазвичай в форматі RSS або інших форматах, заснованих на XML. наприклад RDF / XML або Atom. Найбільш розвинені методи аггрегірованія веб-потоків реалізуються на основі технологій AJAX і XML компонентів - веб-віджетів (webwidgets).

Багато мови програмування мають бібліотеки функцій, що дозволяють завантажувати, обробляти, генерувати і виконувати віддалене завантаження каналів. Наприклад в Perl є підтримка декількох бібліотек в просторі імен XML :: RSS

RSS - сімейство XML-формату, призначених для опису стрічок новин, анонсів статей, змін в блогах і т. П.

У різних версіях абревіатура RSS мала різні розшифровки:

  • Rich Site Summary (RSS 0.9x);
  • RDF Site Summary (RSS 0.9 і 1.0);
  • Really Simple Syndication (RSS 2.x).

З історії формату.

Першою відкритою офіційною версією RSS стала версія 0.90. Формат був заснований на RDF (Resource Description Framework - стандарт схеми опису потоків) і багатьом видався надто складним, після чого з'явилася спрощена версія - 0.91.

Через існування декількох різних версій формату RSS-каналів програми-агрегатори повинні вміти працювати з усіма варіантами, що створює певні труднощі їх розробникам. Проблеми сумісності виникають також при вставці в RSS-опису невеликих HTML-фрагментів. які в одних випадках оформляються як CDATA вузли, а в інших - як HTML -кодірованние PCDATA вузли. Існують проблеми з різними форматами представлення дат і метаданих.

мікроформати

Мікроформати (англ. Microformats) - це спосіб семантичної розмітки відомостей про різноманітних сутності (події, організаціях, людей, товари та ін.) На веб-сторінках, використовуючи стандартні елементи мови HTML (XHTML).

Користувач -людина може сприймати сторінку з розмічених мікроформатів як звичайну веб-сторінку (через веб-браузер); в той же час програми-обробники здатні витягти з такої сторінки структуровану інформацію, дотримуючись певних угод.

Оскільки мікроформати засновані на вже існуючих стандартах (таких, як HTML і XHTML), їх легко додавати на існуючі сторінки в WWW.

При використанні мікроформатів до існуючої HTML -розмітку додаються нові складові, наповнені особливим, заздалегідь певним сенсом. Наприклад, за допомогою атрибута class можна позначити сенс того чи іншого HTML-елементів на сторінці (цей атрибут визначений для всіх елементів). Таким чином, розробники приходять до угоди про використання певних значень атрибутів (в тому числі class) для розмітки певних фрагментів інформації. Надалі таку розмітку можна обробляти машинними засобами.

Для розмітки мікроформатами підходять будь-які елементи HTML. але особливе значення надається елементам, які не мають власного, стандартного семантичного значення - div і span. З атрибутів в даний час використовуються в основному такі:

Кожен з мікроформатів призначений для вирішення певної задачі. Найбільш широко використовуються такі мікроформати:

Веб-фрагменти (web-slices)

Веб-фрагменти виконують чотири основні функції:

Щоб виявити веб-фрагмент, користувачі розміщують на нього курсор миші; при цьому викликається функція виявлення веб-фрагмента в документі.

Семантична веб-мережу

У семантичній веб-мережі передбачається повсюдне використання

  • універсальних ідентифікаторів ресурсів (URI),
  • онтологій і мов опису метаданих.

Концепція семантичної веб-мережі була прийнята і просувається W3С. Для її впровадження передбачається створення мережі документів, що містять метадані про ресурси WWW. і існуючої паралельно з ними. Тоді як самі ресурси призначені для сприйняття людиною, метадані використовуються машинами (пошуковими роботами та іншими інтелектуальними агентами) для отримання однозначної інформації про властивості цих ресурсів за допомогою механізмів логічного висновку.

Технічну частину семантичної павутини становить сімейство стандартів на мови опису, що включає XML. XMLSchema. RDF. RDFSchema. OWL і ін. Необхідність опису метаданих так чи інакше призводить до дублювання інформації. Кожен документ повинен бути створений в двох примірниках: розмічених для читання людьми, а також в машинно-орієнтованому форматі.

Онтологія - це спроба всеосяжної і детальної формалізації деякої області знань за допомогою концептуальної схеми. Зазвичай така схема складається з ієрархічної структури даних, що містить всі релевантні класи об'єктів, їх зв'язку і правила (теореми, обмеження), прийняті в цій галузі.

Сучасні онтології зазвичай складаються з екземплярів. понять. атрибутів і відносин.

Для опису онтологій Веб була розроблена спеціальна мова - OWL (Web Ontology Language), побудований на основі XML. Мова OWL може бути використаний для опису класів і відносин між ними. В основі мови - уявлення дійсності в моделі даних "об'єкт - властивість". Мова можна застосувати не тільки для опису веб-сторінок, але і будь-яких об'єктів дійсності і розглядається в якості однієї з фундаментальних технологій, необхідних для побудови Семантичної веб-мережі.

Схожі статті