Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
El lenguaje XML y su uso
1. Por: Héctor Garduño Real
Máster en Dirección e Ingeniería de Sitios Web
Tecnologías XML
13 de diciembre de 2014 Página 1 de 6
INFORME:
El lenguaje XML y su uso
INTRODUCCIÓN
Según el diccionario de la lengua española, en informática, un lenguaje es un conjunto de signos y
reglas que permiten la comunicación con un ordenador. De hecho, a lo largo de la historia de la
computación han surgido diferentes lenguajes con finalidades específicas, por lo que incluso han
sido clasificados de diferentes maneras, una de estas clasificaciones son los lenguajes de marcado,
un tipo de lenguaje que usa marcas o etiquetas para definir el elemento que será afectado, así como
información sobre su estructura y la forma en que deberá ser tratado.
Uno de los lenguajes de marcas es XML (eXtensible Markup Languaje) traducido como
“Lenguaje de Marcas eXtensible”, el cual nació por las limitaciones que presentaba otro lenguaje de
marcas llamado HTML (usado para crear páginas web), ya que no permitía presentar ciertos conte-
nidos como el caso de las ecuaciones matemáticas. De hecho, el mayor problema de HTML fue que
no tenía semántica, por lo que no podía identificarse a qué tipo de información correspondía un
texto, por ejemplo:
<párrafo>Los pantalones Levi´s tienen un costo de $120 dólares y el
envío es gratuito</párrafo>
En este ejemplo una persona no tiene problemas para identificar los elementos prenda, mar-
ca, costo, moneda y envío, sin embargo una máquina le sería difícil hacerlo. Fue por eso que XML
propuso marcar cada elemento que se quisiera identificar, dando énfasis en el contenido y datos
pero no en cómo sería presentada o procesada esta información.
Fue así como XML nació como un lenguaje muy simple, pero que con el tiempo ha ido
evolucionando lo suficiente para para poder ser usado en prácticamente cualquier ámbito con el fin
de hacer que de forma autónoma dos sistemas se entiendan y puedan comunicarse, es decir, como
como la base para traducir entre los idiomas o formatos usados por cada sistema. Por ello mismo
XML actualmente es muy usado en diferentes tecnologías que nos rodean y que incluso usamos a
diario muchas veces sin darnos cuenta.
Breve reseña sobre XML
A finales de los años 60 aparece el primer lenguaje de marcas llamado GML, que posteriormente
fue estandarizado en 1986 como SGML (Standard Generalized Markup Language) con la finalidad
de adoptarlo para especificar las reglas de etiquetado en documentos sin imponer etiquetas especia-
les. Posteriormente cuando Timb Berners-Lee crea las bases de la web crea en 1989 un lenguaje
derivado de SGML y que denominó como HTML (HyperText Markup Language).
2. Por: Héctor Garduño Real
Máster en Dirección e Ingeniería de Sitios Web
Tecnologías XML
13 de diciembre de 2014 Página 2 de 6
Así es como XML (eXtensible Markup Languaje) se derivada tanto de SGML como de
HTML, tomando para ello lo mejor de ambos, simplificándolo y pretendiendo darle un uso en In-
ternet. Sin embargo, debido a las diversas DTD1
a las que puede asociarse, puede ser empleado en
distintas aplicaciones como formato de intercambio o como sistema de almacenamiento de datos.
Eso es lo que lo diferencia de HTML, cuya finalidad es mostrar o presentar los datos (Oliver Gon-
zález, Moré López, & Climent Roca, 2011, pág. 160).
Aunque es común definir a XML como un lenguaje de mar-
cas, estrictamente no lo es, sino que es un metalenguaje, es decir, que
es un lenguaje que sirve para definir las reglas generales que debe
cumplir un lenguaje de marcas y la manera de definirlo, dicho en pa-
labras llanas, un metalenguaje es un lenguaje que habla de otro len-
guaje. XML fue diseñado para ser auto descriptivo, es decir que cada
persona puede construir sus propias etiquetas que sean descriptivas y
más fáciles de entender para el resto (Tortajada Cordero, 2014).
Por esta razón XML no es un lenguaje programación que ten-
ga que realizar el procesamiento de datos, sino que su única función
es la de transportar, organizar y almacenar información sin reali-
zar ninguna función sobre ésta. XML busca ante todo separar los datos del formato, y aunque ac-
tualmente HTML también hace lo mismo, XML separa los datos de la presentación de manera más
eficaz. Para lograr aislar los datos el lenguaje indica diferentes tipos de archivos necesarios y cada
uno de ellos con una función determinada, estos son (Lecomte & Boulanger, 2009):
Archivo .xml: Contendrá el conjunto de datos.
Archivo .dtd: Contiene las reglas, definiciones o características de las marcas que van a
ser empleadas en el archivo xml.
Archivo .xsl: Son hojas de estilo que describen la forma en que se estructurarán los da-
tos al ser presentados.
Archivo .css: Son hojas de estilo en cascada que incluye las indicaciones de cómo de-
ben ser presentados los datos
El uso de XML
El lenguaje de marcas extensible, ha sido implementado como estándar en muchas aplicaciones por
ser fácilmente interpretable e integrable, de hecho el número de aplicaciones que usan documentos
en formato XML se ha incrementado en los últimos años, de tal manera que ya no solo se ocupa
como lenguaje común entre dos aplicaciones para transferir datos, sino que ya incluso las aplicacio-
nes almacenan sus propios tipos de archivos físicos que han sido escritos usando el lenguaje XML.
1
Document Type Definition es el documento que especifica las reglas para escribir correctamente un XML.
Ilustración 1. Icono de archi-
vo XML que muestra la
estructura del mismo
3. Por: Héctor Garduño Real
Máster en Dirección e Ingeniería de Sitios Web
Tecnologías XML
13 de diciembre de 2014 Página 3 de 6
Se le ha dado a XML un sinfín de usos, entre los que destacan el almacenar las configura-
ciones de una aplicación, como plantillas de estilo o descripción de datos o procesos, aplicaciones
complejas y robustas como suites de ofimática (que guardan los documentos con dicho formato) e
incluso también ha sido empleado en bases de datos, así como en servicios web para la comunica-
ción entre cliente y servidor (Ribas Lequerica, 2003, pág. 18).
La popularidad de uso de XML se debe a que principalmente presenta las siguientes carac-
terísticas (Ribas Lequerica, 2003, págs. 18-19):
Facilidad: Es fácil de entender por humanos y computadoras.
Universal: No depende de algún sistema operativo, lenguaje de programación o tecno-
logía específica, además de poder representar los caracteres de cualquier idioma.
Versátil: Permite presentar datos simples o complejos de una manera sencilla.
Texto plano: Al no ser binario es totalmente independiente de plataforma o tecnología.
Estructuración: Es un documento completamente estructurado en forma de árbol de
datos, lo que permite procesar los datos de forma sencilla, rápida y automatizada.
Caso de éxito en la web: RSS
La sindicación realmente simple o RSS (Really Simple Sindication) es un formato de archivo de
redifusión web2
que fue basado en XML, es decir, se compone de una serie de etiquetas definidas
con un formato específico. Básicamente se trata de un archivo que contiene las novedades de un
sitio web, con datos como el título del artículo, resumen, fecha de publicación, imagen principal,
autor, link, etc. (Wikipedia, 2014)
La forma de funcionamiento de RSS es muy simple. Primero, el sitio web que tiene el con-
tenido deberá tener disponible el servicio RSS, lo cual implica generar/actualizar un archivo espe-
cial escrito en lenguaje XML, posteriormente el usuario deberá agregarse o suscribirse al sitio web
y haciendo uso de un lector RSS podrá mantenerse al tanto de los nuevos contenidos en el sitio web
sin necesidad de visitar el sitio para comprobarlo manualmente, ya que el lector RSS comprobará
automáticamente el archivo RSS y notificará las actualizaciones.
Ilustración 2. Funcionamiento de un lector RSS
Existe otro formato de redifusión llamado Atom que usa un protocolo diferente al de RSS.
2
La redifusión o sindicación web, es una forma de transmitir información desde un emisor hasta un receptor;
en este sentido la información de una página web es puesta a disposición de otros sitios web o aplicaciones,
de forma que estos puedan identificar rápida y fácilmente los contenidos ofrecidos para compartirlos (redifu-
sión) o simplemente leerlos desde un “agregador” en lugar de la página web original.
4. Por: Héctor Garduño Real
Máster en Dirección e Ingeniería de Sitios Web
Tecnologías XML
13 de diciembre de 2014 Página 4 de 6
Caso de éxito en protocolos: XML-RPC
Un protocolo RPC (Remote Procedure Call) permite a una computadora ejecutar código en otra
computadora remota sin necesidad de preocuparse por la comunicación. El caso de XML-RPC se
caracteriza por formatear los datos de comunicación en XML de una manera simple, definiendo
solo unos cuantos tipos de datos y comandos útiles, además de una descripción completa de corta
extensión. Por esta razón es que XML-RPC destaca ante cualquier otro protocolo del mismo tipo.
Fue creado en 1998 en asociación con Microsoft, sin embargo al ser tan simple, decidieron
agregarle funcionalidades hasta que se convirtiera en lo que hoy se conoce como SOAP, otro proto-
colo con el mismo fin (Wikipedia, 2014).
Caso de éxito en otros lenguajes: XHTML
XML al ser un metalenguaje ha servido de base para crear muchos más lenguajes, pero quizás el
más relevante de ellos es XHTML (eXtensible HyperText Markup Language) cuya creación se de-
bió a la intención de tratar de corregir las deficiencias que presentaba HTML en su momento. Esta
versión de HTML resulta ser más estricto en su escritura, sin embargo se contrarresta con la facili-
dad para realizar cambios o encontrar errores (Wikipedia, 2014).
Gracias a XHTML una página web puede incorporar diversos contenidos como el caso de
las ecuaciones matemáticas (MathML) e imágenes vectoriales (SVG), además el procesamiento de
la página resulta más sencillo debido a su semántica, y sin considerar que puede ser procesado con
cualquier otra herramienta y no solo con un navegador web.
Caso de éxito en formatos de imágenes: SVG
El formato de imagen SVG (Scalable Vector Graphics) sirve para describir gráficos vectoriales
bidimensionales, cuyo archivo en realidad contiene las instrucciones escritas en formato XML para
renderizar una imagen (Wikipedia, 2014)
Este formato de imagen se debe al uso de VML, el lenguaje de marcas vectoriales, que
permite crear gráficos vectoriales tanto en segunda dimensión como en tercera dimensión ya sean
animados o estáticos.
Caso de éxito en formatos de documentos ofimáticos: OOXML
Office Open XML (también conocido como OpenXML), son un conjunto de formatos de archivos
usados para almacenar por ejemplo hojas de cálculo (xslx), presentaciones (pptx) y documentos de
texto (docx). Estos archivos guardan los datos basándose en el lenguaje XML en conjunto con las
dependencias que se requieran, todo esto se comprime en un archivo .zip (Wikipedia, 2014).
Microsoft Office dio un paso similar a este grupo de formatos creando “Microsoft Office
XML” teniendo la misma finalidad y como respuesta a las constantes quejas de los usuarios por la
incompatibilidad entre aplicaciones.
5. Por: Héctor Garduño Real
Máster en Dirección e Ingeniería de Sitios Web
Tecnologías XML
13 de diciembre de 2014 Página 5 de 6
Caso de éxito en bases de datos: XMLoader
XMLoader es usado en ETL, el cual no se trata de una tecnología como tal, sino de un proceso que
se encarga de extraer, transformar y cargar (Extract, Transform, Load) datos de un lugar a otro.
ETL se ha consolidado como una de las principales formas de realizar transferencia de datos entre
Sistemas Gestores de Bases de Datos, para por ejemplo creación de Data Marts o de Data Wa-
rehouses. Lo que se plantea en ETL es extraer la información de una base de datos, limpiar los da-
tos y reformatearlos (por ejemplo haciendo uso de XML) para finalmente cargar los datos en otra
base de datos (Wikipedia, 2014).
XMLoader es una herramienta que facilita la interacción de archivos de Microsoft Excel y
de texto plano con diversas bases de datos y sistemas de mensajería basados en XML. Gracias a esta
herramienta se puede elegir un archivo de Excel, realizar un proceso de configuración ajustado al
sistema destino, para finalmente cargar los datos (analitica.com).
Conclusión
El lenguaje de marcas extensible XML ha resultado tan ampliamente usado que la enumeración de
todos ellos llevaría bastante tiempo. Sin embargo se puede decir que en nuestra vida cotidiana ha-
cemos uso de diferentes tecnologías informáticas, las cuales sin saberlo, en su mayoría usan por
detrás el lenguaje XML, sin ir más lejos, la aplicación usada para redactar este documento emplea
este lenguaje para estructurar y presentar los contenidos. De igual manera el sitio web desde el que
se descargó este documento, muy probablemente se comunica con el cliente vía XML.
Así mismo muchas de las actividades que realizamos a diario de manera indirecta tienen
que ver con XML, por ejemplo, en el caso de México, el realizar una compra en una tienda, implica
que la empresa y/o el cliente usen facturas electrónicas, las cuales están formateadas usando XML.
Razón por la cual también muchas personas no involucradas en temas informáticos conocen de la
existencia de este lenguaje, que cada vez es más popular.
Considero que una de las principales razones de su difundido uso es debido a la flexibilidad
que presenta y su posibilidad de uso apegado al lenguaje natural, más fácil de entender incluso le-
yéndolo directamente una persona.
6. Por: Héctor Garduño Real
Máster en Dirección e Ingeniería de Sitios Web
Tecnologías XML
13 de diciembre de 2014 Página 6 de 6
Referencias Bibliográficas
analitica.com. (s.f.). XMLoader. Recuperado el 13 de Diciembre de 2014, de Analítica:
http://www.analitica.com.co/website/productos-analitica/xmloader
Lecomte, S., & Boulanger, T. (2009). XML práctico: Bases esenciales, conceptos y casos prácticos.
Barcelona: Ediciones ENI.
Oliver González, A., Moré López, J., & Climent Roca, S. (2011). Traducción y tecnologías.
Barcelona: UOC.
Ribas Lequerica, J. (2003). Web Services (edición especial). Anaya Multimedia.
Tortajada Cordero, J. J. (2014). La guía definitiva de XML: ¡¡XML, JSON y mucho más!!
Wikipedia. (10 de Noviembre de 2014). Office Open XML - Wikipedia, la enciclopedia libre.
Recuperado el 10 de Diciembre de 2014, de Wikipedia, la enciclopedia libre:
http://es.wikipedia.org/wiki/Office_Open_XML
Wikipedia. (12 de Noviembre de 2014). RSS - Wikipedia, la enciclopedia libre. Recuperado el 13
de Diciembre de 2014, de Wikipedia, la enciclopedia libre:
http://es.wikipedia.org/wiki/RSS
Wikipedia. (9 de Diciembre de 2014). Scalable Vector Graphics - Wikipedia, la enciclopedia libre.
Recuperado el 13 de Diciembre de 2014, de Wikipedia, la enciclopedia libre:
http://es.wikipedia.org/wiki/Scalable_Vector_Graphics
Wikipedia. (11 de Octubre de 2014). XHTML - Wikipedia, la enciclopedia libre. Recuperado el 13
de Diciembre de 2014, de Wikipedia, la enciclopedia libre:
http://es.wikipedia.org/wiki/XHTML
Wikipedia. (11 de Febrero de 2014). XML-RPC - Wikipedia, la enciclopedia libre. Recuperado el
13 de Diciembre de 2014, de Wikipedia, la enciclopedia libre:
http://es.wikipedia.org/wiki/XML-RPC
Wikipedia. (28 de Septiembre de 2014). xtract, transform and load - Wikipedia, la enciclopedia
libre. Recuperado el 13 de Diciembre de 2014, de Wikipedia, la enciclopedia libre:
http://es.wikipedia.org/wiki/Extract,_transform_and_load