DeepEdit!

Программирование баз данных на Oracle, техническая документация, литература, статьи и публикации

  • Увеличить размер шрифта
  • Размер шрифта по умолчанию
  • Уменьшить размер шрифта

Технологии IBM для работы с неструктурированными данными

Технологии IBM для работы с неструктурированными данными
Конференция “Корпоративные базы данных 2004”

Марк Ривкин, IBM

 
Большинство организаций уже давно имеет множество информационно-управляющих систем, работающих со структурированными данными (числами и строчками символов). Сегодня все системы такого типа строятся на основе той или иной коммерческой СУБД. Эти СУБД реализуют основные функции, присущие информационно-управляющим системам, такие как надежность, масштабируемость, защита данных, гибкость, простая модель данных и т д. 
Однако коммерческие СУБД слабо приспособлены для работы с неструктурированными данными. А объем неструктурированных данных в мире растет лавинообразно. Что же такое неструктурированные данные (их еще часто называют контентом)? Это документы (текстовые и отсканированные), книги, презентации, картинки, рентгеновские снимки, отпечатки пальцев, музыкальные клипы, диктофонные записи, фотографии, электронные таблицы, фильмы, результаты наблюдений , новости, почта, протоколы чатов, счета и накладные, компьютерные распечатки и т д и т п. 
Большинству организаций нужны системы обработки неструктурированных данных, начиная с систем документооборота и контроля исполнения документов и кончая системами типа видео по требованию или системами для постоянного мониторинга и анализа прессы. Особенно возрос интерес к работе с неструктурированными данными после появления Интернета. Все веб-сайты и порталы работают с контентом и требуют сбора, хранения, маршрутизации, обновления и своевременного уничтожения этого контента. 
К сожалению, в области работы с неструктурированными данными мы повторяем тот же путь, что в прошлом при работе с структурированными данными. Еще 15 – 20 лет назад каждый программист писал “с нуля” свою информационно-управляющую систему. Данные он размещал в файлах и сам пытался реализовать элементы надежности, масштабируемости, защиты и т д. Лишь тогда, когда люди поняли, что есть функционал, общий для всех систем, работающих со структурированными данными, были созданы коммерческие СУБД, которые реализуют этот функционал хорошо. Вряд ли сегодня кто-нибудь начнет создавать информационную систему “с нуля”. 
А вот в области работы с неструктурированными данными картина пока еще выглядит по-другому. Множество организаций пытается реализовать системы документооборота, архивы и т д на основе коммерческих СУБД. Это аналогично тому, что мы делали 20 лет назад для информационно-управляющих систем. Так как весь функционал для работы с неструктурированными данными приходится каждый раз писать заново. 
Чтобы решить эту проблему, надо было создать аналог СУБД для систем управления неструктурированными данными. Этот аналог назвали “системой управления контентом”. В информационных технологиях появился новый класс систем – Enterprise Content Management (ECM), т е коммерческие системы управления контентом, построенные на основе стандартов. Слово Enterprise (корпоративная) здесь используется не случайно. Дело в том, что такая система должна стать ядром управления контентом всего предприятия. На ее основе реализуется множество разнообразных систем обработки неструктурированных данных, таких как порталы, архивы, документооборот, библиотеки, видео по требованию и т д 
Понятно, что система уровня предприятия должна быть масштабируемой, надежной, транзакционной, защищенной, гибкой, поддерживать работу с большого числа пользователей и эффективно работать с огромными объемами контента. Например, библиотеки видеофильмов для телевидения сегодня достигают нескольких петабайт. Возможно, систему документооборота для небольшой рабочей группы можно купить или разработать без использования систем класса ECM, но если Вам надо реализовать несколько систем для работы с неструктурированными данными на предприятии, то ECM системы незаменимы. Они сэкономят Вам много времени и обеспечат высокое качество создаваемых систем. 
В данном докладе мы поговорим об одной из систем класса ECM – системе DB2 Content Manager компании IBM. По данным Gartner Group она лидирует на рынке ECM и на ее основе сегодня созданы сотни систем для работы с неструктурированными данными. 
Мы поговорим об архитектуре системы, рассмотрим ее функции, обсудим отдельные компоненты системы и их назначение. А также попытаемся показать, какие типичные проблемы предприятия она позволяет решить и чем отличается от простой коммерческой СУБД. 

 









jAntivirus