The role of vocabularies to the access and reuse of Big Data
Data
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Estadual de Londrina
Resumo
Descrição
Objective: Similar to the “information explosion”, the Big Data phenomenon has been increasingly the object of CI/OC. How to discover, access, process and reuse the huge and growing amount of data that is continuously made available on the web by our society? In particular, how to deal with the so-called “unstructured data”, textual documents, which have always been the object of CI/OC? Methodology: Broad spectrum theories such as Ontology and Semiotics were used to analyze data as an essential element of Big Data, especially “unstructured data”. Results: From the analysis of several data definitions, a given is identified as part of already known logical and semiotic schemes, the propositions. One piece of data is found together with others, forming data sets. Data sets are actually sets of propositions. These are present in what is known as structured data - tables in relational databases or spreadsheets. Textual documents also contain sets of propositions. Structured data is compared to “unstructured data”. Conclusions: Although at the limit, both contain propositions and can be equivalent, as sets, structured data are expressed and perceived as a whole, sets of "unstructured data" are procedural, expressed sequentially, which makes the identification of unstructured data more difficult in text documents for processing by machines.
Objetivo: Similar a la “explosión de la información”, el fenómeno de Big Data ha sido cada vez más objeto de CI / OC. ¿Cómo descubrir, acceder, procesar y reutilizar la enorme y creciente cantidad de datos que nuestra sociedad pone continuamente a disposición en la web? En particular, ¿cómo tratar los denominados “datos no estructurados”, documentos textuales, que siempre han sido objeto de CI / OC? Metodología: Se utilizaron teorías de amplio espectro como la ontología y la semiótica para analizar los datos como elemento esencial del Big Data, especialmente los “datos no estructurados”. Resultados: A partir del análisis de varias definiciones de datos, se identifica un dato como parte de esquemas lógicos y semióticos ya conocidos, las proposiciones. Un dato se encuentra junto con otros, formando conjuntos de datos. Los conjuntos de datos son en realidad conjuntos de proposiciones. Estos están presentes en lo que se conoce como datos estructurados: tablas en bases de datos relacionales u hojas de cálculo. Los documentos textuales también contienen conjuntos de proposiciones. Los datos estructurados se comparan con los "datos no estructurados". Conclusiones: Aunque en el límite, ambos contienen proposiciones y pueden ser equivalentes, como conjuntos, los datos estructurados se expresan y perciben como un todo, los conjuntos de "datos no estructurados" son procedimentales, expresados secuencialmente, lo que dificulta la identificación de datos no estructurados en documentos de texto para procesamiento por máquinas.
Objetivo: De forma similar à “explosão informacional” o fenômeno do Big Data vem sendo de forma crescente, objeto da CI/OC. Como descobrir, acessar, processar e reusar a enorme e crescente quantidade de dados que são disponibilizados continuamente na Web por nossa sociedade? Em especial, como tratar os chamados “dados não estruturados”, documentos textuais, que sempre foram o objeto da CI/OC? Metodologia: Teorias de amplo espectro como Ontologia e Semiótica foram utilizadas para analisar dados como elemento essencial do Big Data, em especial os “dados não estruturados”. Resultados: A partir da análise de várias definições de dados, um dado é identificado como parte de esquemas lógicos e semióticos já conhecidos, as proposições. Um dado é encontrado juntamente com outros, formando conjuntos de dados. Conjuntos de dados são na verdade conjuntos de proposições. Estas estão presentes no que é conhecido como dados estruturados - tabelas de bancos de dados relacionais ou de planilhas. Documentos textuais também contém conjuntos de proposições. Dados estruturados são comparados com “dados não estruturados”. Conclusões: Embora no limite, ambos contenham proposições e possam ser equivalentes, enquanto conjuntos, dados estruturados são expressos e percebidos como um todo, conjuntos de dados não estruturados são processuais, expressos sequencialmente o que torna mais difícil a identificação de dados não estruturados em documentos textuais para seu processamento por máquinas.
Objetivo: Similar a la “explosión de la información”, el fenómeno de Big Data ha sido cada vez más objeto de CI / OC. ¿Cómo descubrir, acceder, procesar y reutilizar la enorme y creciente cantidad de datos que nuestra sociedad pone continuamente a disposición en la web? En particular, ¿cómo tratar los denominados “datos no estructurados”, documentos textuales, que siempre han sido objeto de CI / OC? Metodología: Se utilizaron teorías de amplio espectro como la ontología y la semiótica para analizar los datos como elemento esencial del Big Data, especialmente los “datos no estructurados”. Resultados: A partir del análisis de varias definiciones de datos, se identifica un dato como parte de esquemas lógicos y semióticos ya conocidos, las proposiciones. Un dato se encuentra junto con otros, formando conjuntos de datos. Los conjuntos de datos son en realidad conjuntos de proposiciones. Estos están presentes en lo que se conoce como datos estructurados: tablas en bases de datos relacionales u hojas de cálculo. Los documentos textuales también contienen conjuntos de proposiciones. Los datos estructurados se comparan con los "datos no estructurados". Conclusiones: Aunque en el límite, ambos contienen proposiciones y pueden ser equivalentes, como conjuntos, los datos estructurados se expresan y perciben como un todo, los conjuntos de "datos no estructurados" son procedimentales, expresados secuencialmente, lo que dificulta la identificación de datos no estructurados en documentos de texto para procesamiento por máquinas.
Objetivo: De forma similar à “explosão informacional” o fenômeno do Big Data vem sendo de forma crescente, objeto da CI/OC. Como descobrir, acessar, processar e reusar a enorme e crescente quantidade de dados que são disponibilizados continuamente na Web por nossa sociedade? Em especial, como tratar os chamados “dados não estruturados”, documentos textuais, que sempre foram o objeto da CI/OC? Metodologia: Teorias de amplo espectro como Ontologia e Semiótica foram utilizadas para analisar dados como elemento essencial do Big Data, em especial os “dados não estruturados”. Resultados: A partir da análise de várias definições de dados, um dado é identificado como parte de esquemas lógicos e semióticos já conhecidos, as proposições. Um dado é encontrado juntamente com outros, formando conjuntos de dados. Conjuntos de dados são na verdade conjuntos de proposições. Estas estão presentes no que é conhecido como dados estruturados - tabelas de bancos de dados relacionais ou de planilhas. Documentos textuais também contém conjuntos de proposições. Dados estruturados são comparados com “dados não estruturados”. Conclusões: Embora no limite, ambos contenham proposições e possam ser equivalentes, enquanto conjuntos, dados estruturados são expressos e percebidos como um todo, conjuntos de dados não estruturados são processuais, expressos sequencialmente o que torna mais difícil a identificação de dados não estruturados em documentos textuais para seu processamento por máquinas.
Palavras-chave
Big Data, Vocabularies, Structured data, Unstructured data, Linked Open Data, Big Data, Vocabularios, Datos estructurados, Datos no estructurados, Datos abiertos enlaçados, Big data, Vocabulários, Dados estruturados, Dados não estruturados, Dados abertos interligados