[MUSIC] El procesamiento de lenguaje natural se nutre de diversas fuentes de documentos, para presentar a un algoritmo, para que este dé un resultado. Como se ha mencionado, Internet es una fuente muy importante. Documentos de texto son otras de las fuentes, sumado a planillas de cálculo, y documentos PDF. Pero la recolección de datos no se limita a estas fuentes. Las bases de datos relacionales, y las NoSQL, también son fuentes de datos utilizadas en el NLP. Sin ser una lista exhaustiva, estas son las alternativas más comunes. Pero se puede mencionar archivos en equipo mainframe, que se encuentran en formato EBCD. Esto implica una traducción al formato ASCII, para súper procesamiento. Como se observa, la complejidad asociada a la recolección de la información, en este caso denominada fuentes de datos, es un aspecto muy importante y que no siempre es considerado con la seriedad que amerita. Debemos recordar, como hemos dicho anteriormente, que este punto suele ser el que, no permita pasar a producción un proyecto de NLP. Pues solo se ha considerado el entrenamiento en forma manual de un algoritmo, y no la puesta en producción con todo lo que ello implica. Para finalizar el concepto de complejidad, se debe mencionar, que hoy existen nuevos frameworks para el desarrollo de aplicaciones web. El cual, hacen que la mensajerÃa entre el front end y el servidor sea a través de JSON. Y que el rendering de la página se haga a través de HTML, pero utilizando JavaScript, con lo cual, esto nos trae una nueva complicación al momento de hacer un proceso de web scraping. Para esto, tenemos dos maneras de solucionarlo. Por un lado, como es habitual en los procesos de web scraping, uno puede tomar la información que viene en formato JSON, interpretar esta mensajerÃa, y extraer la información que uno necesita. El problema acá, es que hay un esfuerzo para interpretar cómo esa mensajerÃa en JSON es luego renderizada en la información que se presenta en el HTML. Pero, por otro lado, este método es muy performante. Como segunda alternativa, que habÃamos mencionado, se puede dejar que, a través de alguna herramienta, se renderice la página HTML del lado del cliente. Y luego, que esta información está presentada en el browser, o en la herramienta por defecto, tomar la información de ahÃ. El pro de este método, es que es muy sencillo, porque la información you está presentada, y es lo que venimos haciendo habitualmente. La contra es, lo lento que es este proceso. Como se puede observar, cada uno de los proyectos tiene su pro y su contra. Con lo cual, según el tipo de proyecto de NLP al cual nos estemos enfrentando, decidiremos si una u otra alternativa es la más apropiada. [MUSIC]