Trabalho submetido ao SBMAT
Autores:
Albuquerque, A. L.
Eng. Sênior: Eng. Eletromecânica de Geração – EEGE
ELETRONORTE/ELETROBRAS-Brasília, Brasil.
antonival@eln.gov.br
Pavão Lopes, D. C.
Departamento de Energia Elétrica
Universidade Federal do Maranhão-UFMA
São Luís, Brasil.
denivaldo.lopes@gmail.com
Resumo— O crescimento dos dados publicados tem refletido diretamente
nas grandes organizações empresariais. A massa de dados produzida atualmente já
é muito superior do que a gerada há alguns anos atrás, devido principalmente as
novas tecnologias que foram incorporadas à vida quotidiana. Além do mais, os
tipos de dados gerados atualmente estão sendo publicados em diversos formatos e
em diversos tamanhos e consequentemente grandes volumes de dados têm sido
produzidos. Os diversos formatos gerados tais
como vídeos, tabelas, textos, voz e imagens, estão cada vez mais sendo
interconectados e necessitando de tratamento unificado. Os dados estão cada vez
mais precisos e mais representativos, cada vez mais dados estão sendo criados
sobre os próprios dados. Porém, os mecanismos tradicionais de recuperação e
consultas a estes dados ainda estão muito aquém para acompanhar o avanço e a
velocidade que os dados estão sendo gerados. Os mecanismos atuais de consulta e
obtenção de informações não mais conseguem gerenciar estes dados e obter a
informação em um tempo desejável, prejudicando assim o andamento dos negócios e
consequentemente novas possibilidades de crescimento econômico.
Consequentemente, diversos dados estão sendo publicados, porém não estão sendo
consumidos, tanto na grande rede quanto em grandes corporações comerciais.
Novas técnicas para recuperar os grandes dados publicados
estão sendo pesquisadas e desenvolvidas a fim de prover mecanismos mais
eficazes e eficientes na obtenção destes dados e assim
ter um diferencial econômico perante as organizações empresariais e a
sociedade.
Palavras chave: GED; ontologias; modelagem; web semânticae; big data; mineração
de dados.
I. Introdução
O
advento da Internet e consequentemente dos dados que estão sendo publicados na
grande rede tem aumentado consideravelmente nos últimos anos. Alguns
especialistas estimam que até o final da década, a quantidade de dados gerados
na Web será cinquenta vezes maior que a atual. Este crescimento tem ocorrido
devido principalmente às mudanças sociais e econômicas que a sociedade vem
presenciando ao longo dos anos, incluindo o aumento na utilização dos
dispositivos móveis e principalmente as redes sociais que permitem a interação
com milhares de pessoas ao redor do mundo, produzindo milhares de
bytes espontaneamente e instantaneamente. Os diversos formatos gerados tais
como vídeos, tabelas, textos, voz e imagens, estão cada vez mais sendo
interconectados e necessitando de tratamento unificado. Os dados estão cada vez
mais precisos e mais representativos, cada vez mais dados estão sendo criados
sobre os próprios dados. Porém, os mecanismos tradicionais de recuperação e
consultas a estes dados ainda estão muito aquém para acompanhar o avanço e a
velocidade que os dados estão sendo gerados. Os mecanismos atuais de consulta
e obtenção de informações não mais conseguem gerenciar estes dados e obter a
informação em um tempo desejável, prejudicando assim o andamento dos negócios e consequentemente
novas possibilidades de crescimento econômico. Consequentemente, diversos dados
estão sendo publicados, porém não estão sendo consumidos, tanto na grande rede
quanto em grandes corporações comerciais.
Novas técnicas para recuperar os grandes dados publicados estão sendo
pesquisadas e desenvolvidas a fim de prover mecanismos mais eficazes e
eficientes na obtenção destes dados e assim ter um diferencial econômico
perante as organizações empresariais e a sociedade.
II. CONTEXTO TECNOLÓGICO
A. Dados Estruturados
Atualmente, o formato dos dados mais utilizados
nas grandes corporações empresariais são os dados estruturados. Estes tipos de
dados se caracterizam por ter uma estrutura bem definida e utilizar uma
linguagem da década de 90 para a criação e manipulação destes dados, denominada
SQL (Structured Query Language) [1]. Os dados estão estruturados em
tabelas, onde são definidas de acordo com um SGBD (Sistema Gerenciador de Banco
de Dados) específico. Esta nova forma de recuperação, pode carecer de
segurança, integridade e consistência, propriedades estas inerentes a um SGBD
relacional.
Com
o intuito de compreender e analisar também os dados que não seguem mais este
formato rígido de um modelo relacional, novas pesquisas foram realizadas com o
intuito de avaliar os dados em formatos semi-estruturados, ou seja, que não
seguem tão estritamente a estrutura previamente definida por um SGBD
Relacional.
B. Dados Semi-Estruturados
Os
dados semi-estruturados se destacam por não possuírem uma estrutura previamente
determinada e definida. Além disso, não possuem também um tipo bem
caracterizado, sendo normalmente publicados fora de um SGBD Relacional.
Normalmente, estes tipos de dados são auto-descritivos, ou seja, a
representação da estrutura está definida de maneira implícita ou explicita.
Neste caso, é necessário que uma análise dos dados seja previamente realizada
para que a estrutura possa ser definida.
Diversos exemplos podem ser
descritos sobre dados semi-estruturados, mas destacam-se três: XML (Extensible
Markup Language) [2], RDF (Resource Definition Framework) [3] e OWL (Web
Ontology Language) [4].
A
RDF (Resource Definition Language) é uma primeira iniciativa para uma descrição
menos ambígua dos dados atuais. Através da RDF é possível descrever estruturas
hierárquicas e assim inferir novos conhecimentos a partir dos dados coletados. Exemplos clássicos
podem ser observados através do diálogo abaixo:
·
Há um restaurante
perto desta rua?
·
Sim. Há uma
pizzaria na esquina.
Através
deste simples dialogo, é possível um ser humano inferir que pizzaria é um
restaurante. Porém para uma maquina processar estas inferências é necessário
que o mundo a ser analisado contenha estas descrições. Estas descrições são
denominadas descrições semânticas e auxiliam no processo de
desambiguação dos dados coletados.
À
medida que se avança na arquitetura apresentada na Figura 1,
tem-se mais expressividade para descrever os dados do mundo
coletado e consequentemente menos ambiguidade nas consultas a estes dados. A OWL é uma
linguagem que permite descrever os dados semanticamente através do formato de
uma ontologia. Utilizando especificamente a OWL-DL (Web Ontology Language –
Description Logic) [6], a ontologia com as características da Lógica de
Descrições, é possível inferir novos conhecimentos e assim recuperar novos
documentos que outrora não tinham sido recuperados.
·
Há um restaurante
perto desta rua?
·
Sim. Há uma
pizzaria na esquina.
Através
deste simples dialogo, é possível um ser humano inferir que pizzaria é um
restaurante. Porém para uma maquina processar estas inferências é necessário
que o mundo a ser analisado contenha estas descrições. Estas descrições são
denominadas descrições semânticas e auxiliam no processo de desambiguação dos
dados coletados.
À
medida que se avança na arquitetura apresentada na Figura 1, tem-se mais
expressividade para descrever os dados do mundo coletado e consequentemente
menos ambiguidade nas consultas a estes dados. A OWL é uma linguagem que
permite descrever os dados semanticamente através do formato de uma ontologia.
Utilizando especificamente a OWL-DL (Web Ontology Language – Description Logic)
[6], a ontologia com as características da Lógica de Descrições, é possível
inferir novos conhecimentos e assim recuperar novos documentos que outrora não
tinham sido recuperados.
Figura
1 The Web Semantic) [5]
C.
A
Problemática e a Solução Proposta
Aplicam-se ontologias e semântica Web para
suportar a padronização dos componentes. A mineração de dados permite a busca
de informações ou a descoberta de novas informações, fazendo com que o
cruzamento de informações gere novas informações, imperceptíveis a análise
humana, quando se trata de grande volume de informações. Assim, apresentam-se
metodologias para a classificação e a padronização de documentos e componentes
baseadas em ontologia e semântica Web, e estas metodologias são consideradas
nos algoritmos de data mining.
Introduz-se
um algoritmo de Data Mining para suportar e otimizar o estudo e preparação de
propostas técnicas/comerciais através da recuperação de documentos e
componentes bem como através da geração de novas informações. Os documentos,
componentes e padrões ficam armazenados em uma base de dados organizada de tal
maneira que permite uma rápida busca e recuperação. O sistema proposto fornece
suporte para o gerenciamento de versões, bem como para o controle do fluxo de
tramitação dos documentos desde sua fase preliminar de submissão para análise
até sua aprovação ou atualizações. Além de fornecer uma solução coerente para
os problemas apresentados, este sistema de software foi concebido para ser
seguro, ou seja, inclui algoritmos que asseguram a confidencialidade,
integridade, disponibilidade e autenticidade da informação.
.
D. Dados biográficos dos autores
Antonival Lima Albuquerque
possui graduação em Licenciatura para o ensino Técnico (Esquema 1) pela
Universidade Católica de Brasília (1987), graduação em Engenharia Civil pela
Universidade de Brasília (1982) e mestrado em Educação pela Universidade
Católica de Brasília (1999). Atualmente é professor titular de Topografia da
Faculdade de Arquitetura do Planalto Central, engenheiro de projeto e
construção sênior - Centrais Elétricas do Norte do Brasil S/A e professor da
Fundação Educacional do Distrito Federal. Tem experiência na área de Engenharia
Civil, com ênfase em Estruturas de Concreto, atuando principalmente nos
seguintes temas: concreto armado, cálculo estrutural, cartografia, estudo de
viabilidade de UHEs e PCHs e P&D (Pesquisa e Desenvolvimento).
Denivaldo Cicero Pavão
Lopes possui doutorado em Informática pela Universidade de Nantes, França
(2005), mestrado em Engenharia de Eletricidade (área: Ciência da Computação)
pela UFMA (2001) e bacharelado em Engenharia Elétrica pela UFMA (1999). Depois
de agosto de 2008, é professor adjunto da UFMA, onde é professor colaborador do
Programa de Pós-Graduação em Engenharia de Eletricidade (PPGEE), na área de
Ciência da Computação. Coordena o
Laboratório de Engenharia de Software e Rede de Computadores (LESERC) da UFMA.
É membro fundador da Academia Maranhense de Ciências (AMC). Seus temas de
pesquisa envolvem Engenharia Dirigida por Modelos, Teste de Software, Serviços
Web, Sistemas Embarcados, Segurança, e Telemedicina.
AGRADECIMENTOS
Os autores agradecem
as CENTRAIS ELÉTRICAS DO NORTE DO BRASIL AS, ELETRONORTE/ELETROBRAS pela
oportunidade de participação e financiamento do Projeto de P&D SysPattern: Padronização da logística de aquisição da geração, ora em
fase de implantação na Empresa, cujos estudos forneceram subsídios a este
artigo.
BIBLIOGRAFIA
[1]
Alan Beaulieu, Learning SQL, 2nd edition, O'Reilly, 2009.
[2]
Elliotte Harold and W Scott Means, XML in a Nutshell, 3th edition,
O'Reilly, 2004.
[3] Dean Allemang, James Hendler, Semantic Web for the Working
Ontologist: Effective Modeling in RDFS and OWL, 2nd edition, Morgan Kaufmann,
2011.
[4]
John Hebeler, Matthew Fisher, et al, Semantic Web Programming,
1rst, Wiley, 2011.
[5]
T. Berners-Lee, The Semantic Web. Scientific American. 2001.
[6]
E. N. SOUZA, D. CLARO. Evaluation of semantic similarity
in WSD: an analysis to incorporate it into the association of terms.
Proceedings of the 18th Brazilian Symposium on Multimedia and the Web
(WEBMEDIA). Sao Paulo: ACM NY.
Nenhum comentário:
Postar um comentário