Образовательный портал «Кафедра онлайн» НИЯУ «МИФИ», Обнинск"

Главная » Рубрики » Статьи, обзоры, заметки » Статьи » Программирование графов знаний, рассуждения на графах

Программирование графов знаний, рассуждения на графах

В.П. Тельнов. Национальный исследовательский ядерный университет МИФИ, ИАТЭ, Россия, Обнинск.

Аннотация. Рассматривается технология представления знаний и модели рассуждений в системах искусственного интеллекта, оснащенных средствами логического вывода. Визуальная навигация в графах знаний и рассуждения на графах осуществляются с помощью специальных поисковых виджетов и интеллектуального браузера RDF. Представлена архитектура семантического веб–портала, приведены примеры использования графов ядерных знаний.
Ключевые слова: семантический веб, онтология, граф знаний, графовая база данных, облачные вычисления.

Введение

Экспоненциальный рост объема и скорости обращения информации в масштабах планеты (информационный взрыв) и, как следствие, информационный кризис (противоречие между возрастающими потоками информации и ограниченными возможностями человека по её восприятию) есть важная предпосылка возникновения семантического веба. В мировом сообществе осознано «направление главного удара» в борьбе с информационным взрывом – переход от хранения и обработки данных к накоплению и обработке знаний.

Справедливо отмечается, что традиционные веб–технологии (иногда называемые WEB 2.0) не предоставляют адекватных средств поиска и навигации в среде распределенных знаний на семантическом уровне. Естественным образом возникла идея об интеллектуальных агентах (программных средствах), которые могли бы самостоятельно идентифицировать релевантные информационные ресурсы из любого доступного источника данных и содействовать синтезу достоверного знания. Семантические подходы к управлению знаниями по состоянию на 2018г. находят применение при организации обмена научными данными (EUDAT); при компьютерной обработке текстов, написанных на естественных языках (WordNet); развитии международных баз знаний (DBpedia, Wikidata); семантическом анализе социальных сетей; в экспертных, прогностических, образовательных системах, в медицине (IBM Watson).

Рис. 1. Фрагмент графа знаний типа «Ядерный учебный центр»: 1 – индивид класса «University»; 2 – индивид класса «Professor»; 3 – индивид класса «Training video»; 4 – индивид класса «Lecture»; 5 – индивид класса «Textbook»; 6 – индивид класса «Training course»; 7 – индивид класса «Faculty»

Языки описания онтологий RDF, RDFS [1], OWL [2], графы знаний и дескрипционные логики [3,4], которые по выразительным качествам сопоставимы с логикой исчисления предикатов первого порядка и близки к модальным логикам, дают современную теоретическую основу для представления знаний в компьютерных системах, что, в частности, подтверждается действующими стандартами W3C в области семантического веба [5]. Семантическая графовая база данных, также называемая RDF–хранилищем, выделяется среди других типов графовых баз данных из–за возможности поддерживать онтологии. Такая база данных интегрирует разнородную информацию из многих источников и хранит взаимосвязи между элементами данных. Семантическая база данных способна выявлять новые знания на основе существующей информации по заданным алгоритмам. Это мощный инструмент генерации когнитивных гипотез и анализа отношений между сущностями.

Актуальность семантических подходов к управлению знаниями отмечена в докладах Третьей международной конференции МАГАТЭ по управлению ядерными знаниями (ноябрь 2016г.), XIX Международной конференции DAMDID/RCDL «Аналитика и управление данными в областях с интенсивным использованием данных» (октябрь 2017г.), др. По состоянию на середину 2018г. образовательные веб–порталы университетов, центры ядерных данных, базы данных МАГАТЭ и Государственной корпорации по атомной энергии «Росатом» не используют возможности семантической паутины.

Целью работы, представленной в статье, является создание семантического веб–портала ядерных знаний [6] с опорой на онтологии и с использованием графовых баз данных, развернутых на облачных платформах. Задача исследования заключалась в создании следующих графов ядерных знаний:

  • Мировые центры ядерных данных;
  • Ядерные исследовательские центры Российской Федерации;
  • События и публикации ЦЕРН;
  • Базы данных и сетевые сервисы МАГАТЭ;
  • Учебные материалы МГУ и МИФИ по ядерной физике;
  • Журналы по ядерной физике;
  • Объединенный граф ядерных знаний.

Потенциальными бенефициарами информационных решений и технологий, которые предлагаются в статье, являются руководители, эксперты, студенты, преподаватели и специалисты в области ядерной физики, атомной энергетики, компьютерных наук (целевая аудитория).

Смежные работы и новизна

Наиболее полный обзор состояния дел в области представления и вывода знаний применительно к задачам искусственного интеллекта дан в монографии [7]. Ряд университетов [8] и компаний–разработчиков программного обеспечения [9] концентрируются на вопросах реализации машин вывода (ризонеров) для дескрипционных логик и воплощений языка описания онтологий OWL. В докладах конференции International Workshops on Description Logics 2017 [10] отмечается рост интереса гигантов IT–индустрии (Google, Facebook, Wikimedia) к графовым моделям представления знаний и дескрипционным логикам. Попытки обнаружить в русскоязычном сегменте всемирной паутины действующие сервисы семантического веба редко приводят к успеху. Приходится согласиться с тем, что в России производится недостаточно связанных открытых данных. Основными источниками данных для русскоязычных пользователей семантической паутины остаются общедоступные международные базы знаний, содержащие многоязычный контент, в первую очередь DBpedia и Wikidata. Представленный в настоящей статье проект [6] призван частично восполнить этот пробел. Интеллектуальный браузер RDF есть главная отличительная особенность проекта, которая выделяет его среди иных информационных решений в области представления знаний в компьютерных системах и реализации алгоритмов рассуждений на графах знаний.

Авторитетный обзор [11] позволяет ориентироваться среди новейших продуктов и решений, которые используют технологии семантического веба. Лидерами здесь признаются программные продукты AllegroGraph, Apache Jena, ArangoDB, BlazeGraph, Cray, DataStax, Ontotext GraphDB, IBM Graph, MarkLogic, OrientDB, Neo4j, Stardog, Teradata, Aster, Virtuoso. Перспективным представляется совместный проект компаний Ontotext и Impelsys относительно использования платформ Ontotext GraphDB и Dynamic Semantic Publishing для развития систем персонализированного адаптивного образования. Рассматриваемый в статье пилотный проект по созданию семантической базы ядерных знаний [6] использует облачные платформы и сетевые сервисы Ontotext Cognitive Cloud [12], Google Cloud Platform [13], Amazon Web Services [14], что соответствует современному уровню разработок в данной области.

Представлен пилотный проект, посвященный созданию и применению в образовательной деятельности университетов семантического образовательного веб–портала и специализированных агентов для поиска образовательных ресурсов во всемирной паутине, а также для семантического аннотирования и актуализации учебных объектов. Предложена и внедрена онтология учебных курсов, рассмотрено использование графовой базы данных в качестве RDF–хранилища триплетов, обсуждаются компоненты программного обеспечения для создания, семантизации и адаптации учебных материалов. Визуальная навигация по графам знаний осуществляется при помощи поисковых виджетов и интеллектуального браузера RDF. Развертывание и обслуживание хранилищ учебных объектов, равно как и семантический анализ релевантных текстов выполняется на облачных платформах посредством генерируемых SPARQL запросов и специализированных RESTful–сервисов. Приведена архитектура и элементы дизайна программного обеспечения в UML-нотации, даны примеры применения.

Паттерны проектирования онтологий

Онтология в контексте информационных технологий понимается как формальная спецификация с иерархической структурой, которая предназначена для представления знаний. Обычно онтология включает в себя описания классов сущностей (концептов) и их свойств (ролей) применительно к некоторой предметной области, а также отношения между сущностями и ограничения на то, как эти отношения могут использоваться. Онтологии, которые дополнительно включают в себя индивиды (экземпляры классов сущностей) и частные утверждения относительно индивидов, также называют графами знаний. Под формальной моделью онтологии O понимается упорядоченная тройка вида:

O = <X, R, F> , где

X есть конечное множество классов сущностей (концептов) для той предметной области, которую представляет онтология O;
R есть конечное множество свойств (ролей), которые устанавливают отношения между сущностями для некоторой предметной области;
F есть конечное множество функций интерпретации, заданных на сущностях и/или свойствах для онтологии O. Можно сказать, что функции интерпретации отображают формальные онтологии на предметные области.

Основополагающие структуры семантического веба, в частности, онтологии и графы знаний, основаны на совокупности стандартов, установленных международным консорциумом W3C [5]. Ключевыми стандартами, которые используются в проекте [6], являются среда описания ресурсов RDF, язык описания онтологий OWL и язык запросов к семантической паутине SPARQL [15]. Модель RDF (триплеты) – это простой базовый формализм, который применяется для представления данных в графах знаний. Язык описания онтологий OWL основан на дескрипционных логиках, он существенно расширяет возможности модели RDF и предназначен для логического описания состояния дел в некоторой предметной области, включая иерархию сущностей и отношения между сущностями.

Щелкните здесь мышкой, чтобы увидеть полный текст публикации.

Комментариев нет

Похожие публикации
 
 

Комментариев нет

Вы можете быть первым, кто оставит комментарий.

 
 

Вы можете оставить комментарий

 





 
 

Выполните простое задание (антиспам). Картинки можно сибирать приблизительно, без точной подгонки фрагментов.


 
 
 

Наверх