segunda-feira, 3 de agosto de 2015

Elaboração de ontologias e algoritmos de mineração de dados

Trabalho submetido ao SBMAT

Autores:
Albuquerque, A. L.
Eng. Sênior: Eng. Eletromecânica de Geração – EEGE  
ELETRONORTE/ELETROBRAS-Brasília, Brasil.
antonival@eln.gov.br

Pavão Lopes, D. C.
Departamento de Energia Elétrica
Universidade Federal do Maranhão-UFMA
São Luís, Brasil.
denivaldo.lopes@gmail.com

Resumo O crescimento dos dados publicados tem refletido diretamente nas grandes organizações empresariais. A massa de dados produzida atualmente já é muito superior do que a gerada há alguns anos atrás, devido principalmente as novas tecnologias que foram incorporadas à vida quotidiana. Além do mais, os tipos de dados gerados atualmente estão sendo publicados em diversos formatos e em diversos tamanhos e consequentemente grandes volumes de dados têm sido produzidos. Os diversos formatos gerados tais como vídeos, tabelas, textos, voz e imagens, estão cada vez mais sendo interconectados e necessitando de tratamento unificado. Os dados estão cada vez mais precisos e mais representativos, cada vez mais dados estão sendo criados sobre os próprios dados. Porém, os mecanismos tradicionais de recuperação e consultas a estes dados ainda estão muito aquém para acompanhar o avanço e a velocidade que os dados estão sendo gerados. Os mecanismos atuais de consulta e obtenção de informações não mais conseguem gerenciar estes dados e obter a informação em um tempo desejável, prejudicando assim o andamento dos negócios e consequentemente novas possibilidades de crescimento econômico. Consequentemente, diversos dados estão sendo publicados, porém não estão sendo consumidos, tanto na grande rede quanto em grandes corporações comerciais.
Novas técnicas para recuperar os grandes dados publicados estão sendo pesquisadas e desenvolvidas a fim de prover mecanismos mais eficazes e eficientes na obtenção destes dados e assim ter um diferencial econômico perante as organizações empresariais e a sociedade.

Palavras chave: GED; ontologias; modelagem; web semânticae; big data; mineração de dados.

 I.      Introdução

O advento da Internet e consequentemente dos dados que estão sendo publicados na grande rede tem aumentado consideravelmente nos últimos anos. Alguns especialistas estimam que até o final da década, a quantidade de dados gerados na Web será cinquenta vezes maior que a atual. Este crescimento tem ocorrido devido principalmente às mudanças sociais e econômicas que a sociedade vem presenciando ao longo dos anos, incluindo o aumento na utilização dos dispositivos móveis e principalmente as redes sociais que permitem a interação com milhares de pessoas ao redor do mundo, produzindo milhares de bytes espontaneamente e instantaneamente. Os diversos formatos gerados tais como vídeos, tabelas, textos, voz e imagens, estão cada vez mais sendo interconectados e necessitando de tratamento unificado. Os dados estão cada vez mais precisos e mais representativos, cada vez mais dados estão sendo criados sobre os próprios dados. Porém, os mecanismos tradicionais de recuperação e consultas a estes dados ainda estão muito aquém para acompanhar o avanço e a velocidade que os dados estão sendo gerados. Os mecanismos atuais de consulta e obtenção de informações não mais conseguem gerenciar estes dados e obter a informação em um tempo desejável, prejudicando assim o andamento dos negócios e consequentemente novas possibilidades de crescimento econômico. Consequentemente, diversos dados estão sendo publicados, porém não estão sendo consumidos, tanto na grande rede quanto em grandes corporações comerciais.
Novas técnicas para recuperar os grandes dados publicados estão sendo pesquisadas e desenvolvidas a fim de prover mecanismos mais eficazes e eficientes na obtenção destes dados e assim ter um diferencial econômico perante as organizações empresariais e a sociedade.

II.     CONTEXTO TECNOLÓGICO

A.    Dados Estruturados

Atualmente, o formato dos dados mais utilizados nas grandes corporações empresariais são os dados estruturados. Estes tipos de dados se caracterizam por ter uma estrutura bem definida e utilizar uma linguagem da década de 90 para a criação e manipulação destes dados, denominada SQL (Structured Query Language) [1]. Os dados estão estruturados em tabelas, onde são definidas de acordo com um SGBD (Sistema Gerenciador de Banco de Dados) específico. Esta nova forma de recuperação, pode carecer de segurança, integridade e consistência, propriedades estas inerentes a um SGBD relacional.
Com o intuito de compreender e analisar também os dados que não seguem mais este formato rígido de um modelo relacional, novas pesquisas foram realizadas com o intuito de avaliar os dados em formatos semi-estruturados, ou seja, que não seguem tão estritamente a estrutura previamente definida por um SGBD Relacional.

B.    Dados Semi-Estruturados

Os dados semi-estruturados se destacam por não possuírem uma estrutura previamente determinada e definida. Além disso, não possuem também um tipo bem caracterizado, sendo normalmente publicados fora de um SGBD Relacional. Normalmente, estes tipos de dados são auto-descritivos, ou seja, a representação da estrutura está definida de maneira implícita ou explicita. Neste caso, é necessário que uma análise dos dados seja previamente realizada para que a estrutura possa ser definida.
Diversos exemplos podem ser descritos sobre dados semi-estruturados, mas destacam-se três: XML (Extensible Markup Language) [2], RDF (Resource Definition Framework) [3] e OWL (Web Ontology Language) [4].
A RDF (Resource Definition Language) é uma primeira iniciativa para uma descrição menos ambígua dos dados atuais. Através da RDF é possível descrever estruturas hierárquicas e assim inferir novos conhecimentos a partir dos dados coletados. Exemplos clássicos podem ser observados através do diálogo abaixo:
·         Há um restaurante perto desta rua?
·         Sim. Há uma pizzaria na esquina.
Através deste simples dialogo, é possível um ser humano inferir que pizzaria é um restaurante. Porém para uma maquina processar estas inferências é necessário que o mundo a ser analisado contenha estas descrições. Estas descrições são denominadas descrições semânticas e auxiliam no processo de desambiguação dos dados coletados.
À medida que se avança na arquitetura apresentada na Figura 1, tem-se mais expressividade para descrever os dados do mundo coletado e consequentemente menos ambiguidade nas consultas a estes dados. A OWL é uma linguagem que permite descrever os dados semanticamente através do formato de uma ontologia. Utilizando especificamente a OWL-DL (Web Ontology Language – Description Logic) [6], a ontologia com as características da Lógica de Descrições, é possível inferir novos conhecimentos e assim recuperar novos documentos que outrora não tinham sido recuperados.
 A RDF (Resource Definition Language) é uma primeira iniciativa para uma descrição menos ambígua dos dados atuais. Através da RDF é possível descrever estruturas hierárquicas e assim inferir novos conhecimentos a partir dos dados coletados. Exemplos clássicos podem ser observados através do diálogo abaixo:
·         Há um restaurante perto desta rua?
·         Sim. Há uma pizzaria na esquina.

Através deste simples dialogo, é possível um ser humano inferir que pizzaria é um restaurante. Porém para uma maquina processar estas inferências é necessário que o mundo a ser analisado contenha estas descrições. Estas descrições são denominadas descrições semânticas e auxiliam no processo de desambiguação dos dados coletados.
À medida que se avança na arquitetura apresentada na Figura 1, tem-se mais expressividade para descrever os dados do mundo coletado e consequentemente menos ambiguidade nas consultas a estes dados. A OWL é uma linguagem que permite descrever os dados semanticamente através do formato de uma ontologia. Utilizando especificamente a OWL-DL (Web Ontology Language – Description Logic) [6], a ontologia com as características da Lógica de Descrições, é possível inferir novos conhecimentos e assim recuperar novos documentos que outrora não tinham sido recuperados.


Figura 1 The Web Semantic) [5]


C.    A Problemática e a Solução Proposta

Aplicam-se ontologias e semântica Web para suportar a padronização dos componentes. A mineração de dados permite a busca de informações ou a descoberta de novas informações, fazendo com que o cruzamento de informações gere novas informações, imperceptíveis a análise humana, quando se trata de grande volume de informações. Assim, apresentam-se metodologias para a classificação e a padronização de documentos e componentes baseadas em ontologia e semântica Web, e estas metodologias são consideradas nos algoritmos de data mining.
Introduz-se um algoritmo de Data Mining para suportar e otimizar o estudo e preparação de propostas técnicas/comerciais através da recuperação de documentos e componentes bem como através da geração de novas informações. Os documentos, componentes e padrões ficam armazenados em uma base de dados organizada de tal maneira que permite uma rápida busca e recuperação. O sistema proposto fornece suporte para o gerenciamento de versões, bem como para o controle do fluxo de tramitação dos documentos desde sua fase preliminar de submissão para análise até sua aprovação ou atualizações. Além de fornecer uma solução coerente para os problemas apresentados, este sistema de software foi concebido para ser seguro, ou seja, inclui algoritmos que asseguram a confidencialidade, integridade, disponibilidade e autenticidade da informação.
.

D.    Dados biográficos dos autores

Antonival Lima Albuquerque possui graduação em Licenciatura para o ensino Técnico (Esquema 1) pela Universidade Católica de Brasília (1987), graduação em Engenharia Civil pela Universidade de Brasília (1982) e mestrado em Educação pela Universidade Católica de Brasília (1999). Atualmente é professor titular de Topografia da Faculdade de Arquitetura do Planalto Central, engenheiro de projeto e construção sênior - Centrais Elétricas do Norte do Brasil S/A e professor da Fundação Educacional do Distrito Federal. Tem experiência na área de Engenharia Civil, com ênfase em Estruturas de Concreto, atuando principalmente nos seguintes temas: concreto armado, cálculo estrutural, cartografia, estudo de viabilidade de UHEs e PCHs e P&D (Pesquisa e Desenvolvimento).

Denivaldo Cicero Pavão Lopes possui doutorado em Informática pela Universidade de Nantes, França (2005), mestrado em Engenharia de Eletricidade (área: Ciência da Computação) pela UFMA (2001) e bacharelado em Engenharia Elétrica pela UFMA (1999). Depois de agosto de 2008, é professor adjunto da UFMA, onde é professor colaborador do Programa de Pós-Graduação em Engenharia de Eletricidade (PPGEE), na área de Ciência da Computação.  Coordena o Laboratório de Engenharia de Software e Rede de Computadores (LESERC) da UFMA. É membro fundador da Academia Maranhense de Ciências (AMC). Seus temas de pesquisa envolvem Engenharia Dirigida por Modelos, Teste de Software, Serviços Web, Sistemas Embarcados, Segurança, e Telemedicina.  
AGRADECIMENTOS
Os autores agradecem as CENTRAIS ELÉTRICAS DO NORTE DO BRASIL AS, ELETRONORTE/ELETROBRAS pela oportunidade de participação e financiamento do Projeto de P&D SysPattern: Padronização da logística de aquisição da geração, ora em fase de implantação na Empresa, cujos estudos forneceram subsídios a este artigo.
 BIBLIOGRAFIA
[1]     Alan Beaulieu, Learning SQL, 2nd edition, O'Reilly, 2009.
[2]     Elliotte Harold and W Scott Means, XML in a Nutshell, 3th edition, O'Reilly, 2004.
[3]    Dean Allemang, James Hendler, Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL,        2nd edition, Morgan Kaufmann, 2011.
[4]     John Hebeler, Matthew Fisher, et al, Semantic Web Programming, 1rst, Wiley, 2011.
[5]     T. Berners-Lee, The Semantic Web. Scientific American. 2001.
[6]     E. N. SOUZA, D. CLARO. Evaluation of semantic similarity in WSD: an analysis to incorporate it into the association of terms. Proceedings of the 18th Brazilian Symposium on Multimedia and the Web (WEBMEDIA). Sao Paulo: ACM NY. 

Nenhum comentário:

Postar um comentário