Evaluación automatizada y semiautomatizada de la calidad de textos escritos: una revisión sistemática
Resumen
La tecnología para la evaluación de la escritura se ha desarrollado desde los años 60. Actualmente, el procesamiento del lenguaje natural (Shermis, 2020) ha permitido una evolución considerable. No obstante, lo fecundo de este campo, no se han encontrado revisiones sistemáticas que abordan las cuestiones siguientes: ¿en qué país, género y niveles se han desarrollado propuestas para evaluar la calidad de la escritura?, ¿cuáles son las consideraciones didácticas, tecnológicas y teóricas de estas herramientas?, ¿cuál es el rol que desempeñan los docentes en el diseño y uso de ellas? y ¿qué resultados se han obtenido? En este artículo, se revisaron 164 investigaciones entre los años 1966 y 2022. De ello se destaca: a) que la evaluación automática ha pasado de focalizarse en puntuaciones fiables, imparciales y rápidas a una evaluación centrada en la retroalimentación, b) que el docente cumple un rol primordial en el diseño y uso de las herramientas y c) que las herramientas son un apoyo útil. Además, se identifica un escaso desarrollo de herramientas para la lengua española.
Texto completo:
¿Cómo citar este artículo?
Lillo-Fuentes, F., Venegas, R., & Lobos, I. (2023). Evaluación automatizada y semiautomatizada de la calidad de textos escritos: una revisión sistemática. Perspectiva Educacional, 62(2). https://dx.doi.org/10.4151/07189729-Vol.62-Iss.2-Art.1420
Citas
Acosta, N. y Nazar, R. (21-23 de octubre de 2020). Estilector. com: herramienta de ayuda a la redacción en castellano [ponencia]. Congreso Internacional de Lingüística Computacional y de Corpus - CILCC 2020 y V Workshop en Procesamiento Automatizado de Textos y Corpus - WoPATeC 2020, Medellín, Colombia.
Ai, H. (2017). Providing graduated corrective feedback in an intelligent computer-assisted language learning environment. ReCALL, 29(3), 313–334.
Andueza, A. (2019). Evaluación de la escritura académica: construcción y validación de un instrumento integrado basado en tareas para evaluar habilidades específicas de escritura. RELIEVE-Revista Electrónica de Investigación y Evaluación Educativa, 25(2). 1–20.
Ajay, H., Tillet, P. y Page, E. (1973). Analysis of essays by computer (AEC-II). Washington, DC: U.S. Department of Health, Education, and Welfare, Offce of Education, National Center for Educational Research and Development.
Alikaniotis, D., Yannakoudakis, H. y Rei, M. (7-12 de agosto de 2016). Automatic text scoring using neural networks [conferencia]. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlín, Alemania.
Bai, L. y Hu, G. (2017). In the face of fallible AWE feedback: How do students respond? Educational Psychology, 37(1), 67–81. https://doi.org/10.1080/01443410.2016. 1223275
Belcadhi, L. C. (2016). Personalized feedback for self assessment in lifelong learning environments based on semantic web. Computers in Human Behavior, 55, 562–570.
Butterfuss, R., Roscoe, R., Allen, L., McCarthy, K. y McNamara, D. (2022). Strategy Uptake in Writing Pal: Adaptive Feedback and Instruction. Journal of Educational Computing Research, 60(3), 696-721.
Braun, H. I., Bennett, R. E., Frye, D. y Soloway, E. (1990). Scoring constructed responses using expert systems. Journal of Educational Measurement, 27, 93–108.
Brookes, A. y Grundy, P. (1998). Beginnig to write: writing activities for elementary and intermediate learners. Cambridge University Press.
Burstein, J. (2003). The e-rater® scoring engine: Automated essay scoring with natural language processing. En M. Shermis y J. Burstein (Eds.), Automated essay scoring: A cross-disciplinary perspective. (pp. 113-123). Lawrence Erlbaum Associates.
Caro, E. F., Cid, H. A., Rodríguez, S., Venegas, R., Pavez, J., Palma, W. y VanCott, A. (2020). WriteWise: software that guides scientific writing [ponencia]. Congreso Internacional de Lingüística Computacional y de Corpus - CILCC 2020 y V Workshop en Procesamiento Automatizado de Textos y Corpus - WoPATeC 2020, Medellín, Colombia.
Chen, C. y Cheng, W. (2008). Beyond the design of automated writing evaluation: Pedagogical practices and perceived learning effectiveness in EFL writing classes. Language Learning & Technology, 12(2), 94–112.
Cheng, G. (2017). The impact of online automated feedback on students’ reflective journal writing in an EFL course. The Internet and Higher Education, 34, 18–27.
Choi, I. (2016). Efficacy of an icall tutoring system and process-oriented corrective feedback. Computer Assisted Language Learning, 29(2), 334–364.
Chu, T., Taele, P. y Hammond, T. (8-11 de mayo de 2018). Supporting Chinese character educational interfaces with richer assessment feedback through sketch recognition [conferencia]. Graphics Interface (GI 2018), Toronto, Canadá.
Cowie, B. y Bell, B. (1999). A model of formative assessment in science education. Assessment in Education: Principles, Policy & Practice, 6(1), 101-116.
Contreras, L., González, M. y Urías, E. (2009). Evaluación de la escritura mediante rúbrica en la educación primaria en México. Revista Interamericana de Psicología/Interamerican Journal of Psychology, 43(3), 518-531.
Cotos, E., Huffman, S. y Link, S. (2015). Furthering and applying move/step constructs: Technology- driven marshalling of Swalesian genre theory for EAP pedagogy. Journal of English for Academic Purposes, 19, 52-72.
Cotos, E. (2016). Computer-assisted research writing in the disciplines. En S. A. Crossley, y D. S. McNamara (Eds.), Adaptive educational technologies for literacy instruction (pp. 225-242). Routledge.
Cotos, E., Huffman, S. y Link, S. (2020). Understanding graduate writers’ interaction with and impact of the Research Writing Tutor during revision. Journal of Writing Research, 12(1), 187-232.
Crossley, S., Allen, L., Kyle, K. y McNamara, D. (2014). Analyzing discourse processing using a simple natural language processing tool. Discourse Processes, 51(5-6), 511-534.
Da Cunha, I. (2020). Una herramienta TIC para la redacción del Trabajo de Fin de Grado (TFG). ELUA, 34, 39-72.
Davidson, L. Y. J., Richardson, M. y Jones, D. (2014). Teachers' perspective on using technology as an instructional tool. Research in Higher Education, 24, 1–25. https://eric.ed.gov/?id=EJ1064110
Dawson, P., Henderson, M., Ryan, T., Mahoney, P., Boud, D., Phillips, M. y Molloy, E. (2018). Technology and feedback design. En Learning, Design, and Technology: An International Compendium of Theory, Research, Practice, and Policy. M. J. Spector (eds) 1–45. Springer International Publishing.
Díaz López, M. (2018). Impacto de la retroalimentación y la evaluación formativa en la enseñanza-aprendizaje de Biociencias. Educación Médica Superior, 32(3), 147-156.
Dikli, S. (2006). An overview of automated scoring of essays. The Journal Technology, Learning and Assessment, 5(1),1-35.
Dwyer, H. y Sullivan, H. (1993). Student preferences for teacher and computer composition marking. The Journal of Educational Research, 86(3), 137–141.
Eid, S. y Wanas, N. (2017). Automated essay scoring linguistic feature: Comparative study. En Intl Conf on Advanced Control Circuits Systems (ACCS) Systems & 2017 Intl Conf on New Paradigms in Electronics & Information Technology (PEIT), Alexandria, 212-217.
Elliot, S. (1999). Construct validity of IntelliMetric with international assessment. Yardley, PA: Vantage Technologies.
Feng, H., Saricaoglu, A. y Chukharev-Hudilainen, E. (2016). Automated error detection for developing grammar proficiency of ESL learners. Calico Journal, 33(1), 49-70.
Fernández, S. (2017). Evaluación y aprendizaje. Marco ELE: Revista de Didáctica Español Lengua Extranjera, 24, 1-43.
Flower, L. y Hayes, J. (1981). A cognitive process theory of writing. College composition and communication, 32(4), 365-387.
Franzke, M., Kintsch, E., Caccamise, D., Johnson, N. y Dooley, S. (2005). Summary Street®: Soporte informático para la comprensión y escritura. Revista de Investigación en Informática Educativa, 33(1), 53-80.
Granic, A. y Marangunic, N. (2019). Technology acceptance model in educational context: A systematic literature review. British Journal of Educational Technology, 50(5), 2572–2593.
Harvey, L. (2002). Evaluation for what?. Teaching in higher education, 7(3), 245-263.
Huang, Y. y Wilson, J. (2021). Using automated feedback to develop writing proficiency. Computers and Composition, 62, 1-27. https://doi.org/10.1016/j.compcom.2021.102675
Krashen, S. y Terrel, T. (1983). The Natural Approach: Language Acquisition in the Classroom. Pergamon.
Kellogg, R., Whiteford, A. y Quinlan, T. (2010). Does automated feedback help students learn to write? Journal of Educational Computing Research, 42(2), 173–196.
Liu, M., Li, Y., Xu, W. y Liu, L. (2016). Automated essay feedback generation and its impact on revision. IEEE Transactions on Learning Technologies, 10(4), 502–513.
Lopez, X., Valenzuela, J., Nussbaum, M. y Tsai, C. (2015). Some recommendations for the reporting of quantitative studies. Computers & Education, 91, 106-110.
Loraksa, C. y Peachavanish, R. (2007). Automatic Thai-language essay scoring using neural network and latent semantic analysis. En First Asia International Conference on Modelling & Simulation (AMS'07) (pp. 400-402). IEEE.
McNamara, D. S. y Graesser, A. C. (2012). Coh-Metrix: An automated tool for theoretical and applied natural language processing. In P. McCarthy C. Boonthum-Denecke (Eds.), Applied natural language processing and contentanalysis: Identification, investigation, and resolution (pp. 188–205). IGI Global.
McNamara, D., Crossley, S., Roscoe, R., Allen, L. y Dai, J. (2015). A hierarchical classification approach to automated essay scoring. Assessing Writing, 23, 35–59.
Morales, F. (2004). Evaluar la escritura, sí... Pero ¿Qué y cómo evaluar?. Acción pedagógica, 13(1), 38-48.
Muñoz, C. y Pérez, B (2021). Elaboración de una prueba diagnóstico para medir habilidades de escritura académica. Educatio Siglo XXI, 39(1), 131-146.
Navarro, F., Ávila-Reyes, N. y Gómez Vera, G. (2019). Validez y justicia: hacia una evaluación significativa en pruebas estandarizadas de escritura. Meta: Avaliacao, 11(31), 1-35.
Palermo, C. y Thomson, M. M. (2018). Teacher implementation of self- regulated strategy development with an automated writing evaluation system: Effects on the argumentative writing performance of middle school students. Contemporary Educational Psychology, 54, 255–270.
Palermo, C. y Wilson, J. (2020). Implementing automated writing evaluation in different instructional contexts: A mixed-methods study. Journal of Writing Research, 12(1), 63–108.
Page, E. (1966). The imminence of...grading essays by computer. Phi Delta Kappan, 47(5), 238–243.
Page, E. (1968). The use of the computer in analyzing student essays. International Review of Education, 14, 210–225.
Page, E. (2003). Project essay grade: PEG. En M. Shermis y J. Burstein (eds), Automated essay scoring: A cross-disciplinary perspective, 43– 54. Lawrence Erlbaum Associates.
Parra G, y Calero S. (2019). Automated writing evaluation tools in the improvement of the writing skill. International Journal of Instruction, 12(2), 209-226.
Phandi, P., Chai, K. y Ng, H. (19- 21 de septiembre de 2015). Flexible domain adaptation for automated essay scoring using correlated linear regression [conferencia]. Conference on Empirical Methods in Natural Language Processing, Lisboa, Portugal.
Pittard, V. y Martlew, M. (2000). Socially-situated cognition and metalinguistic activity. En A. Camps y M. Millán (Eds.). Metalinguistic activity in learning to write (pp. 79-102). Amsterdam University Press.
Perdomo, B. (2021). Publicaciones científicas de países latinoamericanos sobre educación ante el COVID-19: Revisión sitemática de la literatura. Revista Iberoamericana de Tecnología en Educación y Educación en Tecnología, 28, 344-351.
Powers, D. E., Burstein, J. C., Chodorow, M., Fowles, M. E. y Kukich, K. (2002). Stumping e-rater: Challenging the validity of automated essay scoring. Computers in Human Behavior, 18, 103– 134. https://doi.org/10.1016/S0747-5632(01)00052-8
Ranalli, J., Link, S. y Chukharev-Hudilainen, E. (2017). Automated writing evaluation for formative assessment of second language writing: investigating the accuracy and usefulness of feedback as part of argument-based validation. Educ. Psychol. 37(1), 8–25.
Rapp, C. y Kauf, P. (2018). Scaling Academic Writing Instruction: Evaluation of a Scaffolding Tool (Thesis Writer). International Journal of Artificial Intelligence in Education, 28, 590-615.
Rapp, C. y Kruse, O. (2020). Thesis writer 2.0: a system supporting academic writing, its instruction and supervision. En GMW Tagung 2020, Winterthur, 24.-26. August 2020 (pp. 235-240).
Reilly, E., Stafford, R., Williams, K. y Corliss, S. (2014). Evaluating the validity and applicability of automated essay scoring in two massive open online courses. International Review of Research in Open and Distributed Learning, 15(5), 83-98.
Roscoe, R. D., Allen, L. K., Weston, J. L., Crossley, S. A. y McNamara, D. S. (2014). The Writing Pal intelligent tutoring system: Usability testing and development. Computers and Composition, 34, 39-59.
Ruz, I. (2018). Evaluación para el aprendizaje. Revista Educación las Américas, 6, 13-28.
Saricaoglu, A. (2019). The impact of automated feedback on L2 learners’ written causal explanations. ReCALL, 31(2), 189–203. https://doi.org/10.1017/S095834401800006X
Shermis, M. y Burstein, J. (2003). Automated essay scoring: A cross-disciplinary perspective. Lawrence Erlbaum Associates.
Shermis, M., Burstein, J. y Bursky, S. (2013). Introduction to automated essay evaluation. En Handbook of automated essay evaluation (pp. 23-37). Routledge.
Shermis, M. (2020). International Applications of Automated Scoring. En D. Yan., Rupp, A. y Foltz, P. (eds). Handbook of Automated Scoring (pp. 113-132). Chapman and Hall/CRC.
Stevenson, M. y Phakiti, A. (2014). The effects of computer-generated feedback on the quality of writing. Assessing Writing, 19, 51–65.
Strobl, C., Ailhaud, E., Benetos, K., Devitt, A., Kruse, O., Proske, A. y Rapp, C. (2019). Digital support for academic writing: A review of technologies and pedagogies. Computers & education, 131, 33-48.
Swales, J. (2004). Research genres: Explorations and applications. Cambridge University Press.
Talanquer, V. (2015). La importancia de la evaluación formativa. Educación química, 26(3), 177-179.
Tolchinsky L. (2000). Distintas perspectivas acerca del objeto y propósito del trabajo y la reflexión metalingüística en la escritura académica. En M. Miliam y A. Camps (Eds.). El papel de la actividad metalingüística en el aprendizaje de la escritura. Homo Sapiens.
Urrútia, G. y Bonfill, X. (2010). Declaración PRISMA: una propuesta para mejorar la publicación de revisiones sistemáticas y metaanálisis. Medicina clínica, 135(11), 507-511.
Vajjala, S. (2018). Automated Assessment of Non-Native Learner Essays: Investigating the Role of Linguistic Features. International Journal of Artificial Intelligence in Education 28(1), 79-105.
Venegas, R. (2011). Evaluación de resúmenes en español con Análisis Semántico Latente: Una implementación posible. Revista signos, 44(75), 85-102.
Wade-Stein, D. y Kintsch, E. (2004). Summary street: Interactive computer support for writing. Cognition and Instruction, 22(3), 333–362.
Wang, E., Matsumura, L., Correnti, R., Litman, D., Zhang, H., Howe, E., Magooda, A. y Quintana, R. (2020). eRevis(ing): Students' revision of text evidence use in an automated writing evaluation system. Assessing Writing, 44, 100449.
Ware, P. (2014). Feedback for adolescent writers in the english classroom. Writing & Pedagogy, 6(2), 223–249. https://doi.org/10.1558/wap.v6i2.223
Wilson, J. y Czik, A. (2016). Automated essay evaluation software in English Language Arts classrooms: Effects on teacher feedback, student motivation, and writing quality. Computers and Education, 100, 94–109.
Wilson, J. y Roscoe, R. D. (2020). Automated writing evaluation and feedback: Multiple metrics of efficacy. Journal of Educational Computing Research, 58(1), 87–125. https:// doi.org/10.1177/0735633119830764
Yang, L. P., Xin, T., Luo, F., Zhang, S. y Tian, X. T. (2022). Automated evaluation of the quality of ideas in compositions