Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos

Danny Murillo, Dalys Saavedra, Erika Quintero

Resumen


El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones de extracción de datos. Además, con el fin de realizar un análisis más profundo, se creó un algoritmo en el lenguaje R para comparar la velocidad de extracción de los datos y la eficiencia en el formato de salida de los datos. El artículo muestra las pruebas realizadas de estos métodos para medir la velocidad de extracción de los datos y buscar la mejor forma de extraer los datos de GS de forma estructurada.

Palabras clave


Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.

Texto completo:

PDF

Referencias


(1) A. M. VELÁZQUEZ, “Tim Berners-Lee: «El papel no desaparecerá, siempre habrá cosas que nos guste leer en ese formato»,” 2012. [Online]. Available: http://www.lne.es/asturama/2012/02/15/tim-berners-lee-papel-desaparecera-habra-cosas-guste-leer-formato/1199452.html.

(2) M. Castells, “Internet y la Sociedad Red,” La Factoría, vol. 14–15, pp. 1–12, 2001.

(3) M. F. Berners-Lee, “Weaving the Web. HarperOne,” 1999.

(4) J. R. Sánchez Carballido, “Perspectivas de la información en Internet: ciberdemocracia, redes sociales y web semántica,” Zer-Revista Estud. Comun., vol. 13; n.° 25, pp. 61–81, 2011.

(5) L. C. Silva Ayçaguer, “El índice-H y Google Académico: una simbiosis cienciométrica inclusiva,” ACIMED, vol. 23, no. 3, pp. 308–322.

(6) M. Oficial and E. N. Log, “Logística , Transporte Y Cadena De,” 2014.

(7) D. Torres and Á. Cabezas, “Altmetrics : nuevos indicadores para la comunicación científica en la Web 2 . 0,” pp. 53–60, 2013.

(8) UIAF, “Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT),” p. 35, 2014.

(9) J. C. Riquelme, R. Ruiz, and K. Gilbert, “Minería de datos: Conceptos y tendencias,” Intel. Artif., vol. 10, no. 29, pp. 11–18, 2006.

(10) R. B. Penman and D. Martinez, “Web Scraping Made Simple with SiteScraper.”

(11) H. Jiawei, M. Kamber, J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. 2012.

(12) D. I. Directions, T. Mining, U. K. Further, and H. Education, “The Value and Benefits of Text Mining,” no. March, 2012.

(13) D. S. Danny Murillo, “Implementación de Plataforma Digital de Revistas Académicas y Científicas electrónicas en la Universidad Tecnológica de Panamá para mejorar su visibilidad a nivel nacional e internacional,” in Tecnología, innovación e investigación en los procesos de enseñanza-aprendizaje, 2016, pp. 936–947.

(14) S. Shi, C. Liu, Y. Shen, C. Yuan, and Y. Huang, “AutoRM: An effective approach for automatic Web data record mining,” Knowledge-Based Syst., vol. 89, pp. 314–331, 2015.

(15) V. Bharanipriya and V. K. Prasad, “Web Content Mining Tools : a Comparative Study,” Int. J. Inf. Technol. Knowl. Manag., vol. 4, no. 1, pp. 211–215, 2011.

(16) F. Borrego, “Alternativas para realizar web scraping,” 2017. [Online]. Available: http://felicianoborrego.com/alternativas-para-realizar-web-scraping/.

(17) M. Peshave, “How Search Engines Work and a Web Crawler Application,” 2010.

(18) Scrapehero, “Scalable do-it-yourself scraping – How to build and run scrapers on a large scale,” 2015. [Online]. Available: https://www.scrapehero.com/scalable-do-it-yourself-scraping-how-to-build-and-run-scrapers-on-a-large-scale/.

(19) R. Cotton, Learning R, O´RELLY. 2013.

(20) K. Cichini, “GScholarScraper_3.1,” 2012. [Online]. Available: https://github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R.

(21) J. Keirstead, “Package Scholar,” 2015. [Online]. Available: https://cran.r-project.org/web/packages/scholar/index.html.

(22) Extension Google Chrome, “Scraper,” 2015. [Online]. Available: https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?utm_source=chrome-app-launcher-info-dialog.

(23) Fminer, “FMiner Scraping,” 2015. [Online]. Available: http://www.fminer.com/.

(24) Import.io, “Import.io,” 2016. [Online]. Available: https://www.import.io/.

(25) E. Ferrara, P. De Meo, G. Fiumara, and R. Baumgartner, “Web data extraction, applications and techniques: A survey,” Knowledge-Based Syst., vol. 70, pp. 301–323, 2014.






Copyright (c) 2018 I+D Tecnológico

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.

Indexado y Catalogado en:

DRJI Indexed Journal





© 2016 Portal de Revistas de la Universidad Tecnológica de Panamá
Este sitio es un componente del proyecto UTP-Ridda2
Utilizando Open Journal Systems