publication . Master thesis . 2021

Mejoras para la detección de tipos de recursos en grafos de conocimiento aplicados a la DBpedia

Sanz Lucio, Sara;
Open Access
  • Published: 01 Jul 2021
  • Publisher: E.T.S. de Ingenieros Informáticos (UPM)
  • Country: Spain
Abstract
Con el incremento de la cantidad de datos presentes en Internet, surge la necesidad de que estos sigan un estándar para facilitar su explotación. Además, para que este conocimiento sea interpretable por las máquinas, es necesario que esté en un formato estructurado. Los knowledge graphs responden a esta necesidad de estructurar el conocimiento de manera que este sea fácilmente explotable por una máquina. Uno de los principales ejemplos de knowledge graph es el de DBpedia, que extrae la mayor parte de su conocimiento de las infoboxes de Wikipedia, una de las bases de datos predominantes de la Web. En concreto, la ontología de DBpedia define una jerarquía de clases donde cada recurso tiene más de un tipo. La información que aportan estos tipos es de gran importancia, ya que la precisión y cantidad los tipos definidos para cada recurso de DBpedia incrementa la calidad de los datos obtenidos al realizar consultas sobre estos. Sin embargo, alrededor de un 16 % de los recursos de DBpedia no tiene ningún tipo asignado [1]. La aproximación de Rico et al. [1] proporciona un clasificador multiclase, utilizando la librería C5.0, que obtiene mejores resultados que otros métodos del estado del arte como SDType [2]. Sin embargo, este enfoque tenía una limitación: no permitía su uso con versiones recientes de DBpedia debido a un tamaño excesivo de los datasets. Por tanto, solo permitía su uso con datasets de versiones antiguas de DBpedia de menor tamaño (con menos recursos). En este trabajo se presenta la solución a esta limitación. Primero hubo que identificar la fuente de esta limitación. Se identificó inicialmente a la librería C5.0, pero hubo que realizar un estudio en profundidad. Una vez solventado, gracias a este trabajo se pueden procesar datasets de cualquier tamaño. Esto permite que se pueda emplear el clasificador multiclase de Rico et al. [1] con las versiones más recientes de la DBpedia española e inglesa. Adicionalmente, este trabajo ha permitido que se pueden generar semanalmente los datasets con las predicciones de tipos con cada actualización de DBpedia, poniéndolos a disposición de la comunidad de DBpedia mediante la plataforma DBpedia Databus.---ABSTRACT---With the increase in the amount of data present on the Internet, the need arises for these to follow a standard to facilitate their exploitation. Moreover, for this knowledge to be interpretable by machines, it needs to be in a structured format. Knowledge graphs respond to this need to structure knowledge in such a way that it is easily exploitable by a machine. One of the greatest exponents of knowledge graphs is DBpedia, which draws most of its knowledge from the infoboxes on Wikipedia, one of the predominant databases on the Web. Specifically, the DBpedia ontology defines a class hierarchy where each resource has more than one type. The information provided by these types is of great importance, since the correctness and quantity of the types defined for each DBpedia resource increases the quality of the data obtained when making inquiries about them. However, about 16 % of the DBpedia resources do not have any assigned type [1]. The Rico et al. [1] approach provides a multiclass classifier, using the C5.0 library, which achieves better results than other state-of-the-art methods such as SDType [2]. However, this approach had a limitation: it did not allow its use with recent versions of DBpedia due to the excessive size of the datasets. Therefore, it only allowed its use with datasets from older versions of DBpedia of smaller size (fewer resources). In this work the solution to this limitation is presented. First, the cause of this limitation had to be identified. The issue C5.0 was initially identified in the C5.0 library, however an in-depth study had to be carried out. Once solved, thanks to this work, datasets of any size can be processed. This allows the Rico et al. multi-class classifier to be used with the most recent versions of the Spanish and English DBpedia. Additionally, this work has allowed the datasets with the type predictions to be generated weekly with each DBpedia update, making them available to the DBpedia community through the DBpedia Databus platform.
Subjects
free text keywords: Informática, Informática
Any information missing or wrong?Report an Issue