× Inicio Instituto Historia Misión y Visión Objetivos y funciones Sedes Directorio de contactos Organigrama Programas académicos Maestrías Educación continua Aulas virtuales Información universitaria Bienestar universitario Servicios Reglamento estudiantil Investigación Líneas de investigación Descripción de proyectos Perfiles investigadores Admisiones Atención al ciudadano PQRSD Glosario Preguntas frecuentes Carta trato digno al ciudadano 2017 Cronograma de participación ciudadana 2017 Capacitaciones servicio al ciudadano 2016 Enlaces Estrategia GEL Ofertas de empleo Trámites y servicios Normatividad AAICC
Museos Instituto Caro y Cuervo
Bibliotecas Instituto Caro y Cuervo
Sello editorial Instituto Caro y Cuervo
Transparencia y acceso a la información pública
Educación continua

Diplomado en Análisis Computacional del Lenguaje 2 (Técnicas para el análisis del contexto)

El Instituto Caro y Cuervo se encuentra trabajando en esta oferta académica, próximamente le comunicaremos las fechas de inscripción y demás datos de interés. Gracias por su comprensión.

Duración: 96 horas

Costo: $644.350 (COP)

Horarios: 2:00 pm a 5:00 pm – Lunes, miércoles y viernes

Modalidad: Presencial

OBJETIVOS DEL DIPLOMADO

• Otorgar a los estudiantes los fundamentos teóricos que soportan la construcción y manejo de corpus y bases de datos aptos para la investigación del lenguaje, de modo que se garantice la comprensión de la estructura y el funcionamiento de los mismos.

• Examinar los fundamentos teóricos y técnicos que fundamentan el análisis computacional del lenguaje natural.

• Otorgar a los estudiantes los fundamentos teóricos y metodológicos para proponer, estructurar y llevar a cabo sus propios análisis de fenómenos del lenguaje en corpus, a través de herramientas computacionales determinadas.

• Producir materiales útiles para el análisis computacional del lenguaje, que tengan impacto verificable y efectivo en las redes de generación y transmisión del conocimiento especializado en esta disciplina (foros, wikis, etc…).

Estudiantes y profesionales, interesados en conocer las herramientas y las bases teóricas y metodológicas para efectuar análisis cuantitativo de fenómenos del lenguaje mediante el uso de instrumentos computacionales.

Todos los componentes del curso se presentarán con guías que contendrán el contenido teórico y práctico. La metodología de enseñanza estará basada principalmente en el uso de guías elaboradas con Jupyter Notebookla cual contendrá las explicaciones, los ejemplos de programación y los ejercicios. Este formato permite proveer el contenido a abordar en cada clase (texto, gráficas, ecuaciones, etc.) donde las porciones de código en Python (ejemplos y ejercicios) se pueden ejecutar y ver los resultados en el mismo documento.  Ejemplo de un Jupyter Notebook

CONTENIDOS

a.    COMPONENTE DE PROGRAMACIÓN (30 horas)

i. Objetivo:Adquirir las habilidades de programación básicas para procesar textos y corpora utilizando el lenguaje Python.

ii. Explicación: La programación de las computadoras consiste en aprender el lenguaje con el que ellas hacen las tareas que nosotros queramos que hagan. Este lenguaje se puede aprender sin necesidad de ser un “hacker”. Hacer programas y herramientas para responder preguntas de la lingüística computacional es una tarea que requiere solamente lógica y aritmética básica.

iii. Justificación: Las preguntas de investigación en lingüística de corpus son muchas y diversas. Estas pueden requerir realizar tareas particulares que los programas existentes no pueden realizar. Por ejemplo, suponga que un investigador quiere estudiar el uso de los signos de exclamación (¡!) en el español y para eso cuenta con un corpus de un millón de artículos de periódicos etiquetados con la fecha y el nombre del periódico. El investigador desea recolectar de cada artículo el número de usos de los signos de exclamación, la posición en el documento del uso, el número de palabras y caracteres entre los signos. Muchas observaciones, hipótesis y conclusiones interesantes se pueden hacer con esta información, sin embargo es prácticamente imposible encontrar un programa ya hecho que obtenga esa información. Es indispensable que un investigador sea capaz de procesar un corpus de acuerdo a su necesidad particular para responder sus preguntas particulares. No se busca aprender a construir aplicaciones de uso general con menús y mecanismos de interacción sino pequeños programas que realizan una tarea específica que toman como entrada ciertos documentos y generan un archivo de texto con el resultado.

iv. Temas:

1. Tipos de datos en Python. Conceptos de variable, cadena, lista, conjunto, tupla y diccionario.
2. Operadores, funciones y métodos incorporados en Python.
3. Estructuras IF, FOR, WHILE.
4. Manejo de archivos y de Internet en Python.
5. Creación de funciones.
6. Expresiones regulares.
7. Visualización de resultados con matplotlib.

b. COMPONENTE DE FUNDAMENTOS MATEMÁTICOS (20 HORAS)

i. Objetivo:Proveer los conceptos matemáticos básicos para entender los modelos geométricos usados para la representación del lenguaje.

ii. Explicación:Los métodos geométricos son actualmente la manera más usada para representar palabras y textos en un modelo matemático. La idea básica es que una palabra, oración o texto se puede representar como un punto en un espacio, por ejemplo un plano Cartesiano en dos dimensiones (2D). Estos puntos los conocemos como vectores y los espacios pueden ser de más dimensiones (p. ej. 3D y en la práctica muchas dimensiones).  Las relaciones geométricas entre los vectores, tales como magnitudes, distancias y direcciones, pueden dar información sobre las relaciones semánticas entre las palabras o entre los textos que representan. Así como los números tienen sus operaciones básicas como suma, resta, etc., los vectores las tienen también y son la herramienta básica para entender los modelos geométricos.

iii. Justificación:Mantener el diplomado sin pre-requisitos y nivelar al grupo para que todos los alumnos tengan los elementos para entender los modelos geométricos aplicados al lenguaje.

iv. Temas:

1. Vectores y matrices
2. Operaciones entre vectores y matrices
3. Distancias, similitudes y normalización
4. Visualización

c. COMPONENTE DE LINGÜÍSTICA COMPUTACIONAL (46 HORAS)

i. Objetivo:Aprender las técnicas de la lingüística computacional y los modelos geométricos para el análisis de corpus.

ii. Explicación:El uso de herramientas computacionales para el análisis de corpus desde el punto de vista lingüístico se basa principalmente en la observación de concordancias. Esto es, observar, por ejemplo, una palabra en todos los contextos de ocurrencia en un corpus. Los métodos geométricos proveen herramientas para inducir información adicional que no es posible obtener mediante el análisis manual de concordancias. Por ejemplo, los contextos de ocurrencia de cada palabra en un corpus se pueden representar (cada uno) con un vector en un espacio. Con esta representación se pueden responder preguntas como, dada una palabra, p. ej. “Colombia”, cuáles son las palabras que ocurren en contextos similares, p. ej. “paz”, “café”, “conflicto”. Los modelos más recientes logran extraer de los contextos de un corpus relaciones entre las palabras que hacen razonamiento analógico y composicional. Un ejemplo de razonamiento analógico es, a partir de la relación entre “rey” y “reina” inferir “condesa” a partir de “conde”. Un ejemplo de razonamiento composicional es, a partir de “Colombia” y “presidente” inferir “Santos”.

iii. Temas:

1. Modelo de espacio vectorial
2. Modelos para dar pesos a las palabras
3. Representación del lenguaje con modelos basados en conteo
4. Modelos para reducción de la dimensionalidad
5. Representación del lenguaje con modelos predictivos

Los aspirantes al Diplomado en Análisis Computacional del Lenguaje deberán diligenciar el formulario de inscripción que se encuentra en la página institucional del Instituto Caro y Cuervo  www.caroycuervo.gov.co y adjuntar en formato digital  PDF los siguientes documentos:

· Hoja de vida

· Fotocopia del documento de identidad

· Diploma de estudios profesionales o acta de grado; para estudiantes activos: certificación de su calidad de estudiante expedida por su departamento, facultad o unidad académica respectiva; debe incluir semestre en curso, plan de estudios, y estado del estudiante (activo o en semestre aplazado).

REQUISITOS PARA LA CERTIFICACIÓN

• Llevar a cabo las lecturas previas y los ejercicios exigidos por el profesor.

• Participar como mínimo en el 80% de las sesiones de cada uno de los módulos.

• Entregar como mínimo el 80% de las evaluaciones programadas por el profesor.

• Obtener una nota mínima de 3.0 (escala de 1.0 a 5.0) en cada una de los temas de los módulos.

 

Cada clase tendrá ejercicios prácticos los cuales deben ser realizados por cada estudiante en la guía práctica proveída. Estos ejercicios se elaborarán en su mayoría durante las clases de manera individual pero con soporte colaborativo del profesor y los demás estudiantes utilizando la herramienta de visualización compartida Chrome Cast.

Los aspirantes al Diplomado en Análisis Computacional del Lenguaje deberán diligenciar el formulario de inscripción que se encuentra en la página institucional del Instituto Caro y Cuervo  www.caroycuervo.gov.co

Calendario de actividades
Spanish in Colombia
Spanish in Colombia
Gestión del Riesgo Patrimonial
Gestión del Riesgo Patrimonial
De interés
Libreria
Leer es mi cuento
FOCALAE
ELE FOCALAE
Concurso de cuento Caro y Cuervo
Concurso de cuento Caro y Cuervo
Emisora CYC radio
Emisora Instituto Caro y Cuervo
Redes sociales
Micrositios
Catedra herencia africana
SIELE 2017
Congreso
Jornadas Montes
Portal para niños
Portal de niños
Sitios del instituto
Derecha Izquierda
Biblioteca

Catálogo en línea Biblioteca Rivas Sacconi

Sáliba

Diccionario Sáliba

Biblioteca digital Palabra

Biblioteca digital Palabra

Catálogo de publicaciones

Catálogo de publicaciones

Diccionario académico de medicina

Diccionario académico de medicina

Revista Lenguas en Contacto y Bilingüismo

Revista Lenguas en Contacto y Bilingüismo

Portal de Lenguas de Colombia

Portal de Lenguas de Colombia

Recursos electrónicos

Recursos electrónicos

Institución de Educación Superior por autorización del Ministerio de Educación Nacional según el artículo 21 de la Ley 30 de 1992.
Reconocimiento personería jurídica: Ley 5 de 1942. Código SNIES:9108. Vigilada Mineducación. Entidad adscrita al Ministerio de Cultura.

 
Presidencia de la repúblicaMinTicColombia AprendeColombia compra eficienteSi VirtualGobierno en líneaUrna de cristal