Accesibilidad

Conjunto de prácticas de desarrollo que promueven que las personas tengan acceso a los sitios y servicios en Internet de forma igualitaria y sin barreras.

          
            Imágen que representa Accesibilidad

Las barreras pueden derivarse de circunstancias físicas (discapacidad visual) o de circunstancias sociales, económicas o técnicas (baja velocidad de conexión o complejidad del despliegue de las herramientas). El objetivo de la accesibilidad es superar —a través de un desarrollo web adecuado— estas barreras y garantizar que todas las personas, sin importar su diversidad, accedan en condiciones de igualdad a la Red.

Algunos ejemplos de acceso en condiciones de igualdad son:

  1. Garantizar el acceso a personas en situación de discapacidad (permanente o temporal) como baja visión o dificultades motoras.

  2. Garantizar el acceso a personas con distintos tipos de conexión a Internet (banda ancha, 5G, 4G y 3G de bajo rendimiento).

  3. Garantizar el acceso desde diversos dispositivos (computadores, teléfonos inteligentes, asistentes de voz, relojes inteligentes y otros dispositivos con métodos de entrada y tamaño de pantalla diversos).

Importancia de la accesibilidad

La importancia de la accesibilidad crece con el incremento de servicios prestados por Internet. Ejemplo de ello son las políticas digitales adoptadas por varios países con el fin de ofrecer procedimientos, servicios y el goce de derechos por Internet. Estas iniciativas tienen el riesgo de ser pensadas para usuarios tipo. La oferta de servicios o de trámites exclusivamente por Internet presupone asegurar la mayor accesibilidad posible y la reducción de las brechas digitales. De lo contrario, las políticas que ordenan el empleo de estas herramientas incrementarán las desigualdades.

Además de las ventajas para todos los usuarios en igualdad de condiciones, el uso de buenas prácticas de accesibilidad y rendimiento puede redundar en la reducción de costos para el Estado.

Algoritmo

En ciencias de la computación, un algoritmo se define como una serie finita de instrucciones bien definidas y ejecutables por computadores para realizar una tarea o para resolver un problema o un conjunto de problemas.

          
            Imágen que representa Algoritmo
En ciencias de la computación, un algoritmo se define como “una serie finita de instrucciones bien definidas e implementables por computadora para resolver un conjunto específico de problemas computables”. Teniendo en cuenta lo anterior, es posible derivar una definición simplificada y sin relación alguna a la tecnología: una secuencia finita de instrucciones bien definidas para ejecutar una tarea o resolver un problema.
Imagine que quiere buscar la definición de una palabra específica —‘dato’— en el diccionario. Esta palabra se encuentra en la página 281 del diccionario que va a consultar. Una forma de encontrar este término es buscándolo página por página, empezando por la primera. Este proceso, descrito paso a paso como un algoritmo, sería el siguiente:
  1. Abra el diccionario en la primera página
  2. Revise si la palabra seleccionada se encuentra en esa página
  3. Si es así, salte al paso #6
  4. Si no es así, pase a la siguiente página
  5. Vuelva al paso #2
  6. Lea la definición
  7. Fin

Alternate Text

Este proceso le tomará bastante tiempo porque debe repetirlo 281 veces para encontrar la página en la que se encuentra la definición de ‘dato’. Si bien se trata de un algoritmo eficaz, es muy ineficiente. Una forma más eficiente sería la siguiente: dividir las páginas en mitades hasta que encontremos aquella que contiene la palabra que estamos buscando. Esta búsqueda implica que conocemos el orden del alfabeto y que las palabras están dispuestas en ese orden, de modo que podemos saber si una palabra está en una página anterior o posterior a aquella en la que nos encontramos. El algoritmo en cuestión se vería como algo así:

  1. Tome todas las páginas del diccionario como páginas a considerar (efectivamente, nuestro conjunto de datos);
  2. Seleccione una página en la mitad del conjunto de páginas a considerar;
  3. Revise si se encuentra la palabra en cuestión
  4. 1 página en la que está
  5. 1.1 Si la palabra buscada es anterior en orden alfabético a la primera palabra de la página, descarte todas las páginas siguientes y tome como conjunto de páginas a considerar las anteriores
  6. 1.2 Si la palabra buscada no es anterior en orden alfabético a la primera palabra de la página, Vuelva al paso #2
  7. Lea la definición
  8. Fin

De manera gráfica, este algoritmo se vería más o menos así:

Alternate Text

Impacto de los algoritmos en los derechos humanos

Los algoritmos en sí mismos no tienen impacto sobre los derechos humanos por el hecho de ser algoritmos. Es el modo en que se definen las órdenes, la secuencia de las mismas e incluso la omisión de algunas, las que pueden afectar los derechos humanos.

Discriminación algorítmica

Resultados injustos o discriminatorios producidos por el uso de un sistema de inteligencia artificial o machine learning debido a la incorporación de sesgos cognitivos o sociales en un conjunto de datos, en el modelo matemático o en la interpretación de los resultados de dichos sistemas.

Aunque los errores aleatorios pueden conducir a resultados injustos, la discriminación algorítmica es comúnmente generada por errores sistemáticos. Es decir, aquellos no se deben solo al azar, sino a errores en la metodología por medio de la cual se llega al resultado o a la incorporación de sesgos cognitivos o sociales. Estos sesgos pueden ocurrir en dos fases del desarrollo y despliegue de sistemas de IA: i) en la selección y ajuste de los datos de entrada o del modelo que los relaciona; o ii) en la interpretación y aplicación de los resultados

Veamos un ejemplo. En noviembre de 2019, el programador David Heinemeier reveló que su límite en la tarjeta de crédito Apple Card era 20 veces mayor que el de su esposa, a pesar de que la pareja presentó una declaración de impuestos conjunta y que la mayoría de su información crediticia era idéntica.

Hay dos formas de entender lo sucedido. Por un lado, puede tratarse de un sistema de puntuación electrónica que se basa en algoritmos oscuros entrenados con datos potencialmente discriminatorios. Por otro, puede verse como un caso de un modelo de aprendizaje automatizado entrenado con un conjunto de datos que, a través de diversas correlaciones, reproduce situaciones consideradas como discriminatorias contra cierto grupo poblacional.

Al aplicar esta última hipótesis al caso de la Apple Card se trataría de un algoritmo que reconoce un patrón y lo perpetúa. El algoritmo identificó una serie de correlaciones de las que se concluye que, históricamente, a las mujeres se les ha otorgado menos crédito; el algoritmo incorpora esa información en su conjunto de instrucciones y reproduce la situación

Casos de discriminación algorítimica según Tarcízio Silva
CasoSesgoPosibles causas
Google marca a los negros como gorilasRepresentación y asociación racistas; deshumanización• Base de datos insuficiente • Base de datos con asociaciones racistas intencionales • Ausencia de pruebas
Faceapp blanquea la piel para hacer que la selfie sea más ‘bonita’Representación eurocéntrica de la belleza; deshumanización• Base de datos insuficiente • Ausencia de pruebas
Las API de análisis de expresión facial asocian emociones negativas con negrosPercepción eurocéntrica; estereotipos• Base de datos insuficiente • Ausencia de pruebas
Las mismas API no reconocen el género y la edad de las mujeres negrasRepresentación eurocéntrica de género y edad• Base de datos insuficiente • Ausencia de pruebas
Google Vision confunde el cabello negro con una pelucaRefuerzo de la apropiación cultural; deshumanización• Base de datos insuficiente • Base de datos con ejemplos de apropiación estético-cultural • Ausencia de pruebas
Los autos autónomos tienen más probabilidades de golpear a las personas negrasDeshumanización; riesgo físico directo• Base de datos insuficiente • Ausencia de pruebas

Algoritmos comúnmente utilizados en (IA)

La elección de un algoritmo para un proyecto de aprendizaje automático pasa por varios criterios. Por ejemplo, se deben tener en cuenta el modelo o simplificación de la realidad, así como otros factores como la expectativa de sesgos estadísticos o la variación, el tipo y las características de los datos. Además, se tienen en cuenta la eficiencia computacional (tiempo y recursos utilizados para computación) y otros factores similares que impactan en la factibilidad del proyecto y su costo.

Definir todos los tipos de algoritmos utilizados en la inteligencia artificial es una tarea virtualmente imposible. Encuentra aquí los algoritmos más utilizados a partir de sus funciones: clasificación, predicción/pronósticos o reconocimiento de patrones.

Algoritmos de clasificación y agrupamiento

Organizan datos categóricos o datos discretos como colores, números cardinales, cantidades y opciones binarias. Esta labor la realizan por medio de la organización de los datos en distintos subconjuntos a los que se aplica una etiqueta, clase o categoría.

Algoritmos de clasificación binaria

Se utilizan para determinar la pertenencia de los datos a una de dos categorías o clases excluyentes y que comprenden todo el universo de datos. Es decir, cada dato sería parte de una categoría o de la otra, no pudiendo ser al mismo tiempo de ambas o de ninguna. Uno de los ejemplos más sencillos es clasificar un correo electrónico como spam o no spam, de modo que todo el correo recibido necesariamente entra en una de dichas categorías, pero no podría al mismo tiempo ser spam y no serlo. Los algoritmos de clasificación binaria más comunes son los siguientes: Naïve Bayes, Decision Tree y Logic Regression.

Algoritmos de clasificación de múltiples clases

Atribuyen la pertenencia de los datos a una categoría de entre tres o más. Estas categorías son excluyentes y comprenden el universo de los datos. Un ejemplo simple es la asignación de fotos de animales a subconjuntos determinados (los conjuntos elefantes, caballos y perros). Una foto de un caballo no puede ser clasificada simultáneamente como una foto de un perro, aunque existan múltiples categorías para clasificar la foto. Algunos algoritmos de clasificación de múltiples clases son: Multinomial Naïve Bayes, Random Forest, Logic Regression, Bootstrap Aggregating y Linear Support Vector Machine.

Algoritmos de clasificación de etiquetas múltiples

Estos algoritmos emplean categorías que no son mutuamente excluyentes. En un mismo proceso de clasificación, el mismo dato puede pertenecer a varias categorías. Por ejemplo, una película puede ser, por su género, una comedia y una película animada.

Algoritmos de predicción o pronóstico

Se utilizan para realizar análisis en datos continuos como dimensiones, velocidades o puntajes. Su objetivo principal es realizar predicciones o pronósticos, adelantando valores futuros, y ofrecer así información relevante para la toma de decisiones. Frecuentemente, el término regresión lineal se utiliza como sinónimo de esta clase de algoritmos. Algunos ejemplos son: Linear Regression, Auto-regressive Integrated Moving Average (ARIMA), Polynomial Regression, Lasso Regression y ElasticNet Regression.

API

Una API es un protocolo o una serie de protocolos que permite la comunicación entre diferentes partes de un programa o entre diferentes sistemas.

          
            Imágen que representa API

Esta interfaz permite que tales elementos puedan intercambiar información o comandos sin que sea necesario conocer o acceder a su configuración interna. El uso de APIs facilita el desarrollo de programas informáticos porque permite recurrir a recursos ya existentes sin necesidad de crearlos desde cero.

Un ejemplo de esto es su uso para acceder a bibliotecas de software. En programación, las bibliotecas cumplen el objetivo de ser repositorios a los que se puede acudir para acceder a desarrollos de ciertas funciones en ciertos lenguajes.

Por ejemplo, si quisiéramos programar una calculadora tendríamos dos opciones: i) hacerlo desde el origen, con líneas y líneas de código para cada operación; o ii) visitar alguna biblioteca de las existentes en el lenguaje de programación que hemos elegido y recurrir al código ya desarrollado por otros para realizar esas mismas operaciones (funciones).

Con el crecimiento del uso de Internet, dos términos se han usado indistintamente como sinónimos de API: Web API y REST API. La Web API se refiere a cualquier API utilizada en la Red, mientras que la REST API es un patrón o estilo de arquitectura específico de la interfaz de programación (de entre varios posibles) que permite la interoperabilidad y la comunicación de diferentes sistemas para el crecimiento de Internet y, especialmente, para el crecimiento de las empresas basadas en datos.

Inteligencia artificial

Un término genérico para una serie de técnicas diferentes encaminadas a que una máquina o sistema realice tareas sofisticadas tradicionalmente asociadas a la inteligencia humana como predecir, analizar o categorizar de forma autónoma.

          
            Imágen que representa Inteligencia artificial

Introducción

No existe una única definición de inteligencia artificial. Su uso más amplio refiere la automatización de tareas realizadas por humanos, de ahí su nombre. Es un término paraguas que cobija un conjunto de técnicas y procesos que hacen posible que una máquina o sistema realice tareas sofisticadas tradicionalmente asociadas a la inteligencia humana como predecir, analizar o categorizar.

Russell y Norvig afirman que la inteligencia artificial se puede clasificar en 4 grupos organizados alrededor de dos ejes. El primero, referido al estudio del proceso o a la acción como resultado de este. El segundo, a la humanidad o a la racionalidad del actor al manifestar su inteligencia.

Clasificación de la inteligencia artificial según Russel y Norving
 

Proceso

Actuación


Humano

Sistemas que “piensan” como humano:

  • ej: redes neuronales

Sistemas que actúan como humano:

  • ej: aprendizaje automatizado

Racional

Sistemas que piensan racionalmente:

  • ej: inferencias lógicas

Sistemas que actúan racionalmente:

  • ej: planeación, análisis, comunicación

Categorías de IA

Al referirnos a su funcionalidad, normalmente se habla de 4 categorías de IA:

A. Máquinas reactivas:

Sistemas que no tienen memoria y no pueden usar información pasada como insumo para realizar acciones futuras. Un ejemplo de estos sistemas son los desarrollados por IBM para jugar ajedrez en los años noventa, Deep Blue y Deeper Blue.

B. Memoria limitada:

Sistemas que sí pueden usar experiencias pasadas como insumo para tomar decisiones futuras, pero sus observaciones no se almacenan permanentemente. Así funcionan asistentes digitales como Siri de Apple o Google Assistant de Google.

C. Teoría de la mente:

Sistemas capaces de comprender las emociones, creencias, pensamientos y expectativas de las personas con el fin de interactuar socialmente como lo haría un humano.

D. Autoconciencia:

Sistemas que tienen una inteligencia superior y alcanzan la autoconciencia.

Clases de IA

Al referirnos a su capacidad, usualmente se habla de 3 clases de IA:

A. Artificial Narrow Intelligence (ANI):

Sistema de IA especializado en la realización de una tarea. Por ejemplo, un sistema de IA experto en el juego de ajedrez solo podrá jugar ajedrez, nada más.

B. Artificial General Intelligence (AGI):

Sistema de IA capaz de realizar cualquier tarea intelectual que un ser humano es capaz de hacer. Puede jugar ajedrez, identificar una canción y leer un libro.

C. Artificial Superintelligence (ASI):

Sistema de IA que es mucho más inteligente que los humanos.

Clasificaciones de IA de uso extendido

Existen varias clasificaciones de IA. Algunas de las más empleadas son las que se basan en una réplica de las funciones humanas (voz y visión) y las que consultan los procesos de automatización. Presentamos algunas de modo ilustrativo:

  • Inteligencia artificial
    • Aprendizaje automatizado (o de máquinas - machine learning)
      Aprendizaje supervisado
      Aprendizaje no supervisado
    • Procesamiento de lenguaje natural
      Extracción de contenido
      Clasificación
      Traducción
      Respuesta a preguntas
      Generación de textos
    • Visión
      Reconocimiento de imágenes
      Visión de máquinas
    • Voz
      De voz a texto (dictado)
      De texto a voz
  • Planificación automatizada
  • Robótica
  • Sistemas expertos

Impactos de la inteligencia artificial en los derechos humanos

Redes neuronales

Las redes neuronales son modelos computacionales inspirados en cómo se cree que funciona el cerebro humano. Se componen de un conjunto de elementos —perceptrones, también llamados neuronas artificiales— interconectados. El objetivo de estos modelos es simular la inteligencia humana o facilitar su emergencia a través de la imitación del cerebro, teniendo como modelo la sinapsis neuronal.

Algunas veces no es posible conocer la forma en que el sistema obtiene un resultado concreto (información de salida) a partir de unos datos de entrada. Esto se debe a la forma en la que están conectados sus elementos, al número de relaciones posibles y al hecho de que estas relaciones pueden ser modificadas por el mismo sistema (tanto las relaciones como sus ponderaciones). Los sistemas de redes neuronales se crean a sí mismos a medida que aprenden de los datos de entrada y de las relaciones creadas a partir de dichos datos.

Aprendizaje automatizado

Es un tipo de IA que se enfoca en la creación de sistemas predictivos. Estos sistemas se basan en modelos estadísticos que usan ciertos datos sobre los que se hacen inferencias y se realizan predicciones. A los datos con los que se construye el sistema se les conoce como datos de aprendizaje o de entrenamiento. Los sistemas de aprendizaje automatizado hacen predicciones sobre nuevos datos de entrada, a partir de las relaciones e inferencias creadas con los datos de aprendizaje.

Los algoritmos por medio de los cuales funciona el machine learning se pueden clasificar de la siguiente forma:

A. Aprendizaje supervisado: se provee al algoritmo con algunos datos de entrada etiquetados de modo que encuentre la relación entre datos y etiquetas, siendo estas las salidas del sistema cuando se introduzcan datos nuevos. Por ejemplo, se le dan como parejas de datos de entrada y etiquetas (1,2), (2,4), (3,6), (4,8). Al introducir una nueva cifra, por ejemplo 5, el algoritmo identificará como salida 10.

B. Aprendizaje no supervisado: al algoritmo únicamente se le proveen datos de entrada, sin ninguna etiqueta. En este caso el algoritmo discrecionalmente analiza los datos con el fin de categorizarlos y clasificarlos.

C. Aprendizaje reforzado: el aprendizaje supervisado establece un sistema de recompensa. Cuando el sistema produce el resultado esperado, recibe la recompensa. Sin embargo, cuando se produce un resultado errado, el sistema no recibe una corrección en forma del resultado esperado, sino una recompensa negativa. De este modo, el sistema trabaja en una lógica ensayo-error.

Decisiones automatizadas

Las decisiones automatizadas son aquellas que son tomadas en parte o en su totalidad por un sistema de inteligencia artificial. Primero, el sistema arroja un resultado basándose en datos determinados previamente; posteriormente, se genera una consecuencia basándose en el resultado obtenido.

Introducción

Los sistemas de inteligencia artificial se despliegan en un contexto social y económico específico, por lo que su uso puede tener impactos distintos, positivos o negativos, según el caso.
Para el Berkman Klein Center de la Universidad de Harvard, los impactos de la IA en los derechos humanos se pueden derivar principalmente de dos situaciones: i) la calidad de los datos con los que se entrene al sistema y ii) el diseño mismo del sistema. También es posible que al momento de interactuar con el contexto específico en el que se inserte, el sistema de IA genere impactos que no estaban previstos inicialmente.

Existe amplia literatura sobre el impacto de soluciones de IA en derechos humanos como la privacidad, la libertad de expresión o la igualdad. El análisis de impactos (positivos o negativos) no puede hacerse en abstracto y debe tener en cuenta el contexto en el que se pretende desplegar la tecnología y las características generales del sistema.

Impacto de las decisiones automatizadas en los derechos humanos

La toma de decisiones automatizadas tiene impactos en los derechos humanos que están en la base de procedimientos o servicios cuyo despliegue o prestación esté mediada por esta tecnología.

El impacto se debe a que es una máquina la que genera consecuencias que afectan a las personas. Toda implementación de sistemas de decisiones automatizadas supone una afectación genérica al debido proceso. Esto es así porque el sistema de IA restringe su análisis a las variables con las que fue programado, imposibilitando análisis comprehensivos de la situación.

Teniendo en cuenta las limitaciones y problemas de las decisiones automatizadas en general, el GDPR (la normativa de protección de datos de la Unión Europea) prohíbe este tipo de decisiones sin intervención humana, cuando estas produzcan efectos jurídicos.

Modelos

En las matemáticas, los modelos son representaciones simplificadas de la realidad en las que se utilizan el lenguaje y los conceptos matemáticos para permitir o facilitar el análisis teórico de diferentes fenómenos.

En inteligencia artificial, el modelo es la representación de la realidad a través de datos o la representación de las relaciones que supuestamente describen una cierta situación física.

IA explicable y cajas negras

Hay casos en los que ni siquiera quien modeló el sistema es capaz de conocer la forma en la que este llega a una decisión específica. A este tipo de sistemas se les conoce como ‘caja negra’. Esto sucede, por ejemplo, en las redes neuronales.

En ausencia de ‘cajas negras’, uno de los principios básicos en el despliegue de soluciones de inteligencia artificial es que esta sea explicable. La Cámara de los Lores del Reino Unido indica que no se debe desplegar un sistema de inteligencia artificial que tenga impacto en la vida de las personas, a menos que las decisiones que tome se puedan explicar satisfactoriamente. Esta explicación debe hacerse en un lenguaje que entiendan las personas afectadas por el sistema y seguir la misma forma en la que uno espera que se justifique la decisión de un humano.

La necesidad de hacer que las decisiones tomadas por sistemas de IA sean explicables garantiza el derecho a la información y la transparencia. Además, previene afectaciones injustificadas a otros derechos humanos.

Impacto de la IA explicable en los derechos humanos

La necesidad de hacer que las decisiones tomadas por sistemas de IA sean explicables garantiza el derecho a la información y la transparencia. Además, previene afectaciones injustificadas a otros derechos humanos. La explicación de esta tecnología, además, es central para generar confianza en el público.

Dark web y Deep web

‘Deep Web’ se refiere a las páginas web que, aunque se encuentran disponibles a través de software común, no son accesibles-ubicables mediante buscadores convencionales. ‘Dark Web’ se refiere a las páginas web que sólo son accesibles-ubicables mediante un software especial, como TOR Browser.

          
            Imágen que representa Dark web y Deep web

Alternate Text

El término ‘deep web’ se usa para referirse a sitios o servicios web a los que se puede acceder a través del software de navegadores convencionales (Google Chrome, Firefox y otros), pero que no se pueden encontrar empleando los motores de búsqueda (Bing, Google y otros). Esto quiere decir que son sitios que cuentan con muy poca publicidad o visibilidad, pero no necesariamente que estén intencionalmente ocultos en la web. Quien conozca la URL del sitio en cuestión puede acceder al mismo usando un navegador convencional. Se estima que entre un 80% y 90% del contenido de la web (como por ejemplo los correos electrónicos) hace parte de la deep web.

El término ‘dark web’ se usa para referirse a sitios o servicios web que se encuentran hasta cierto punto ocultos, porque no es posible acceder a ellos a través del software de navegadores convencionales. En general, el acceso a estos sitios se realiza a través de protocolos de conexión ‘peer-to-peer’ o a través de programas especializados como Tor o Invisible Internet Project.

Debido al anonimato que ofrece la dark web algunas personas la usan para compartir información de manera segura. Esto permite que algunas personas realizen conductas ilegales o que vulneran los derechos humanos (actividades ligadas a la pornografía infantil, la venta y compra de armas o el tráfico de personas).

Es entendible que el Estado y algunos sectores de la sociedad quieran crear herramientas tecnológicas y legales para prohibir el uso de la dark web justificándose en la lucha contra el crimen. Sin embargo, no puede perderse de vista que entre sus usos legítimos está el ejercicio de la libertad de expresión sin censura, sin vigilancia y sin temor a represalias. La dark web también es usada de forma recurrente por activistas, informantes, whistleblowers, y medios de comunicación, quienes se sienten más seguros para ejercer su libertad de expresión y de información por esta vía que por la del software y los protocolos convencionales de Internet.

Dato

En su forma más fundamental, el dato es una unidad de información factual y sin contexto alguno. Es factual en tanto es capaz de describir una única característica o cantidad de una entidad.

          
            Imágen que representa Dato

Introducción

Alternate Text

En ciencias de la computación, se habla de ‘datos’ para referirse a cualquier secuencia de uno o más símbolos. Esta definición no se limita únicamente a texto. Por ejemplo, se puede tratar también de la presencia o ausencia de una carga eléctrica representada por 1 y 0, lo cual es la base de los datos binarios usados por los computadores modernos.

Aunque el concepto de ‘dato’ y el de ‘información’ usualmente se usan para indicar lo mismo, tienen distintos significados dependiendo del contexto. El término ‘información’ se puede entender como datos que han sido interpretados o que tienen un significado.

Datos agregados

Alternate Text

Es el resultado de procesar gran cantidad de datos recolectados de diversas fuentes o a través de distintas técnicas que se encuentran agrupados en virtud de ciertas tendencias, características, o consideraciones específicas.

Datos personales

Alternate Text

Cualquier información relativa a una persona física identificada o identificable.

Esta definición está caracterizada por cuatro elementos. En primer lugar, la centralidad de la persona humana a la que la información se refiere; el énfasis en la persona humana excluye otros centros de referencia de los datos, como las empresas o las instituciones estatales. En segundo lugar, la existencia de una relación de atribución entre un dato y una persona humana. En tercer lugar, la función de identificación; lo que implica que al establecerse la relación entre el dato y una persona humana se active la función de identificar a esta última, ya porque sea claro en el caso de qué persona se trata (que la persona esté identificada) o porque con un conjunto más o menos simple de pasos, sea posible, a partir de dicha información, lograr la identificación de una persona (que la persona sea identificable). Y en cuarto lugar, su carácter maximalista, lo que incluye prácticamente toda la información que suponga una relación de atribución entre un dato y una persona humana y que cumpla la función de identificar o hacer identificable a una persona natural.

Anonimización de datos

Alternate Text

Se trata de la práctica de eliminar o disolver la relación entre una persona y uno o varios datos o de limitar las posibilidades de relacionamiento entre una persona y uno o varios datos, con el fin de evitar la función de identificación de dicha persona mediante el uso de tales datos. El objetivo de esta práctica es permitir los aprovechamientos de los datos en aquellos casos en que revelar la identidad de sus titulares es ilegal o es irrelevante, buscando la conciliación entre el acceso a la información y los derechos humanos como el respeto a la vida privada o la protección de los datos personales.

Seudonimización de datos

Alternate Text

Es la práctica de sustituir el identificador en un conjunto de datos por un identificador seudónimo, haciendo necesaria información adicional para identificar al sujeto a quien corresponden los datos.

La seudonimización de datos se distingue de la anonimización en que en aquella no se eliminan los campos o variables susceptibles de permitir la identificación, sino que se sustituyen los valores de dichos campos por otros que no permiten dicha identificación.

Imagine un set de datos de un grupo de personas identificadas con su nombre (los estudiantes de un curso, los funcionarios de una entidad, los jugadores de un equipo) en el cual se relaciona cada uno de sus integrantes con su género, sus creencias religiosas y su filiación política. La anonimización pasaría por la eliminación de los datos del campo “nombre”, teniendo una tabla con tres columnas referentes al género, creencias y filiación política. La seudonimización sustituye el campo “nombre” por claves alfanuméricas, por ejemplo. Quien conozca la relación entre las claves alfanuméricas y los nombres, podrá lograr la reidentificación de los integrantes de dicho set de datos y conocer su relación con los datos allí consignados.

Big Data

Alternate Text

Este conjunto de técnicas toma el nombre de big data a partir del carácter del conjunto de datos sobre el cual se aplican. Este conjunto de datos se caracteriza por su gran volumen, su velocidad de agregación y de análisis y por su alto número de variables

A los efectos de distinguir este concepto de cualquier cantidad grande de datos, se entiende que las características del big data no permiten su procesamiento por medio de las estrategias convencionales de gestión de datos.

Data Brokers

Alternate Text

Empresas cuyo negocio es agregar y comercializar datos de todo tipo, personales o no.

Este tipo de compañías obtienen los datos de diversas fuentes como fuentes abiertas en Internet, historiales de navegación en Internet, técnicas de web tracking, registros de compras en línea, los programas de fidelización, la compra de bases de datos e incluso de otros data brokers.

Estos datos usualmente son analizados, agregados y comercializados finalmente con un tercero para distintos fines, especialmente de mercadotecnia.

Datos y modelos

Alternate Text

Los modelos son representaciones simplificadas de la realidad. Los datos tienen una relación importante con ellos por su naturaleza de piezas de información de dicha realidad. Esta relación se manifiesta de los datos al modelo y del modelo a los datos.

Los datos con los que contamos sirven para construir y entrenar el modelo. Asimismo el objetivo del modelo es representar, predecir o producir nuevos datos, que puedan a su vez ser integrados al modelo.

La construcción de un modelo se encuentra con una tensión: por un lado, existe el riesgo de desarrollar una simplificación demasiado específica que no mostrará relaciones entre variables lo suficientemente generalizables para permitir predicciones (el llamado sobreajuste u overfitting). Por el otro, necesitamos datos para que sean representativos de la realidad o el modelo que desarrollemos será demasiado simple y perderá capacidad predictiva (el llamado subajuste o underfitting). Habitualmente, un conjunto de datos para entrenamiento se divide en dos tipos:

Sin embargo, la construcción de un modelo se encuentra con una tensión: por un lado, existe el riesgo de desarrollar una simplificación (modelo) demasiado específica que no mostrará relaciones entre variables lo suficientemente generalizables para permitir predicciones utilizando diferentes conjuntos de datos o condiciones, (el llamado sobreajuste u overfitting); por el otro, necesitamos datos para que sean representativos de la realidad o el modelo que desarrollemos será demasiado simple y perderá capacidad predictiva (lo que se denomina subajuste o underfitting).

Tipos de datos según su relación con los modelos

Alternate Text

Junto con la cuidadosa definición de algoritmos y variables para el análisis, los conjuntos de datos utilizados para crear el modelo serán extremadamente importantes. Habitualmente, un conjunto de datos para entrenamiento se divide en dos tipos:

Datos de entrenamiento:

Son los datos que empleamos directamente en la construcción del modelo cuya calidad depende de la calidad de aquellos. Es importante, para evitar el subajuste o el sobreajuste, que los datos sean suficientes (es decir, ni pocos ni muchos) y representativos de la realidad observada.

Datos de validación:

Su función es comprobar que efectivamente el modelo creado a partir de los datos de entrenamiento tiene capacidad predictiva para representar correctamente la realidad y no únicamente las relaciones entre los datos de entrenamiento. Por ello, es ideal que estos datos sean distintos a los datos de entrenamiento del modelo.

Reconocimiento Facial

software biométrico capaz de detectar la existencia de un rostro en una imagen o de identificar a una persona concreta cuyo rostro se encuentra en una imagen.

          
            Imágen que representa Reconocimiento Facial

Ver introducción

Estas tecnologías permiten, mediante el uso de software biométrico, detectar el rostro de una persona o identificarla mediante la comparación de los patrones faciales que aparecen en una imagen y los patrones faciales de las imágenes del rostro extraídas de diversas fuentes como bases de datos o redes sociales

En las tecnologías de reconocimiento facial existen 3 niveles de complejidad: i) detección de caras en una imagen; ii) identificación de una cara específica (esta tecnología es usada para desbloquear un teléfono celular); y iii) identificar a una persona específica en medio de una multitud (así funcionan los sistemas de seguridad pública y de vigilancia masiva).

  1. El sistema identifica la presencia de una cara en una imagen.

    Alternate Text

  2. El sistema de reconocimiento facial analiza las características del rostro identificado previamente.

    Alternate Text

    Existen factores geométricos que sirven para realizar este análisis; algunos de ellos son la distancia entre los ojos, la distancia entre los pómulos y la distancia entre el tabique y el labio superior. En adición, el sistema puede realizar el análisis teniendo en cuenta otros elementos faciales como el color de piel, la textura del cutis, los volúmenes del rostro (en modelos 3D) o la configuración de vasos sanguíneos (en imágenes térmicas). Al hacer el análisis, el sistema convierte estos datos a través de una función matemática (conocida como hash) y arroja una secuencia alfanumérica relacionada con el rostro que sirve como ‘huella’.

  3. Una vez el sistema haya creado la ‘huella’, esta se compara con una base de datos que contiene gran cantidad de ‘huellas’ asociadas a personas determinadas.

    Alternate Text

  4. Al comparar la ‘huella’ de la imagen seleccionada con las ‘huellas’ de la base de datos, el sistema determina si la ‘huella’ de la imagen coincide o no con la información contenida en la base de datos. Las coincidencias pueden ser totales o parciales.

    Alternate Text

Censura en internet

Medidas restrictivas de la libertad de expresión en Internet a través del uso de herramientas tecnológicas diseñadas para impedir el libre flujo de las ideas y de la información.

          
            Imágen que representa Censura en internet

A pesar de la gran libertad que ofrece Internet, la censura y los límites a la libertad de expresión han encontrado su camino a través de sistemas digitales especiales. En esta sección presentaremos algunas técnicas informáticas para hacer efectiva la censura en Internet.

Técnicas informáticas para censurar en Internet

Existen distintas técnicas digitales por medio de las cuales se puede materializar la censura. Conocerlas permite saber cómo enfrentarlas para garantizar la libertad de expresión.

  • Bloqueo de dirección IP

    Esta técnica hace que las solicitudes a servidores o dispositivos desde una IP específica sean bloqueados.

    El alcance de esta medida (a cuántos dispositivos afecta) dependerá del punto en el que se haga la intervención. Puede afectar solo un dispositivo, los dispositivos conectados a una red local, los dispositivos de un vecindario o todo un país. El bloqueo de dirección IP no implica que las páginas web dejen de existir, sino que ciertos dispositivos no pueden acceder a ellas.

  • Filtrado de DNS

    Esta técnica busca modificar las respuestas de las consultas al sistema de nombres de dominio DNS (sistema que permite acceder a un sitio web digitando el nombre de dominio en vez de la dirección IP que es una serie alfanumérica.

    Esto sería como poder decirle al conductor de un taxi que te lleve a “casa de Juan” en lugar de darle la dirección) con el fin de evitar que las personas accedan a un sitio web. Esta técnica utiliza la práctica de direccionar al usuario hacia a otros servidores en otras direcciones IP. Así, , cuando un usuario solicita entrar a un sitio web al introducir su dirección nominal (www.ejemplo.com), el servidor, en vez de enviarlo al sitio web, lo redirecciona a uno diferente al solicitado o a una página creada en el aparato de bloqueo. Un ejemplo inofensivo de la operación de esta técnica de filtrado sería lo que sucede cuando se solicita entrar a la dirección www.gogle.com y el servidor automáticamente redirecciona a la dirección www.google.com. Esta técnica afecta a todos los protocolos basados en IP como HTTP, FTP o POP.

  • Desconexión de red

    Esta técnica se basa en cortar el acceso a Internet de todos los router, ya sea a través de métodos digitales (software) o de métodos mecánicos (apagando las máquinas o desconectando los cables). Una técnica para evitar esta forma de censura es usar un satélite ISP para acceder a Internet.

  • Filtrado del localizador de recursos uniforme (URL)

    Esta técnica de censura escanea la URL solicitada en busca de palabras clave, independientemente del nombre de dominio especificado en la URL, y no permite la entrada a la página si se encuentran estas palabras clave.

  • Filtrado de paquetes

    Esta técnica finaliza las transmisiones de paquetes TCP al detectar palabras específicas, generalmente en conexiones no encriptadas.

  • Reset de la conexión

    Esta técnica bloquea futuros intentos de conexión para acceder a los sitios web. Si un filtro bloquea una conexión TCP anterior, todos los intentos de conexión futuros de ambos lados también se bloquearán durante al menos 30 minutos.

Puntos de control

Cada una de las técnicas mencionadas anteriormente se puede implementar en diferentes puntos de la conexión entre el usuario y el servidor. Algunos de estos puntos son considerados parte de la infraestructura de Internet, por lo que implementar técnicas de censura o control de la información en ellos vulnera el principio de neutralidad de la red.

  • Internet backbone

    Se trata de los elementos más generales de la infraestructura de Internet, su columna vertebral. Incluyen los cables de comunicaciones submarinos, los satélites, los cables internacionales de fibra óptica, etc. Cualquier técnica de seguimiento o censura en Internet que se despliegue en este punto afectará a millones de personas.

  • Proveedores de infraestructura y redes de entrega de contenidos

    Servicios que proporcionan sistemas de procesamiento, almacenamiento de datos y entrega de contenido, al agregar grandes cantidades de contenido también pueden ser un punto para filtrado y censura.

  • Proveedores de servicios de Internet (ISP)

    En otras palabras, las empresas con las que contratamos nuestra conexión a Internet. Estas empresas pueden determinar que ciertos contenidos no estén disponibles para algunos o todos sus usuarios. De igual manera, a través de estos proveedores se pueden realizar actividades de vigilancia de Internet, observando el tráfico de los clientes, así como el bloqueo de equipos por solicitud de autoridades estatales.

  • Organizaciones

    Son aquellas que, sin ser ISP, pueden proveer conectividad en un momento determinado. Por ejemplo, nuestro lugar de trabajo, la biblioteca o la cafetería en la que nos encontramos. Estas organizaciones pueden bloquear, filtrar o censurar por políticas propias (por ejemplo: bloqueo de sitios web como Facebook, YouTube, otros, ya sea a través de bloqueo de palabras o de servidores determinados) o por solicitud de autoridades estatales.

  • Dispositivos personales

    Los computadores o teléfonos inteligentes. En algunos contextos, los fabricantes o vendedores pueden instalar software en estos equipos (para obtener ventajas comerciales o para mantener buena relación con el Estado en el cual adelantan actividades comerciales), o por estar obligados por ley a instalar software de censura en los equipos distribuidos en un determinado lugar.

  • Administradores de sitios web, redes sociales y aplicaciones

    Que pueden llevar a cabo la censura voluntariamente bajo sus propias políticas, mediante técnicas cada vez más complejas de autorregulación, de forma independiente o en colaboración con las autoridades estatales.

  • Autoridades de certificación

    Pueden emitir certificados de seguridad (i.e. certificados SSL/TLS) que pueden permitir ataques del tipo man in the middle, donde un tercero puede leer comunicaciones que deberían ser privadas entre dos partes.

  • Suspensión o cancelación de nombres de dominio

    En ejercicio de las potestades regulatorias o sancionatorias, distintas autoridades estatales pueden decidir la suspensión o cancelación de un nombre de dominio. Esto puede ocurrir en diversos casos, que van desde el no pago de la tarifa respectiva, el incumplimiento de las regulaciones en la materia o el uso de dicho activo para la comisión de delitos.

Rastreo Web (Web Tracking)

la práctica de recolectar datos de los usuarios de Internet tanto en una página web o aplicación específica, como en las diferentes páginas web o aplicaciones que visite.

          
            Imágen que representa Rastreo Web (Web Tracking)

Introducción

Alternate Text

El rastreo web es la práctica de recolectar datos generados al navegar por Internet. Es la recolección de información sobre una entidad mientras se mueve por distintos espacios virtuales en el tiempo. Esta entidad puede ser una persona, un correo electrónico, una aplicación o un dispositivo. Para realizar el seguimiento, es indispensable asociar un identificador general a la entidad que se busca rastrear. Luego de tener este identificador se procede al seguimiento de la entidad (usualmente un usuario web) a través de los lugares visitados.

La precisión y alcance del rastreo web dependerá de las tecnologías implementadas para realizarlo. Las más avanzadas son capaces de realizar una tercera tarea: determinar la identidad del objeto o entidad rastreada. A esto se le conoce como data matching o record linkage.

Beacons (balizas web)

Alternate Text

Web beacons o balizas web son elementos, habitualmente imágenes, integrados en el código de una página web o un correo electrónico con el objeto de detectar la actividad del usuario.

Suele tomar la forma de una imagen mínima y transparente, imperceptible para el humano en su navegación ordinaria, pero que se ejecuta con el resto del código, permitiendo a un tercero rastrear la navegación en la página o el correo. Su uso es habitual en las empresas de marketing para saber si el destinatario ha abierto o no el correo, entre otros posibles usos. El hecho de ser invisible en la navegación ordinaria no evita que se pueda conocer su existencia vía revisión del código fuente de la página o del correo.

Cookies

Alternate Text

Las cookies son conjuntos de caracteres alfanuméricos que facilitan la transferencia de pequeños paquetes de información entre el servidor y el navegador u otro agente de usuario. Aunque a menudo se describen las cookies como pequeños archivos de texto, lo cierto es que las cookies son solo cadenas de texto, en formato y subsistema específico del navegador, similar a una base de datos.

Por su origen, las cookies pueden ser de origen (first-party cookie) o de terceros. Cuando son de origen, las instala el servidor de la página web visitada; si son de terceros, las instala un servidor diferente al de la página visitada.

Por su función, las cookies pueden ser necesarias (sin ellas no es posible la navegación, e.g. compras en línea), de funcionalidad (mejoran la experiencia de navegación, e.g. reconocer el idioma), estadísticas (agregan datos sobre cómo se usa la web) o de marketing (buscan adaptar la publicidad que recibe el usuario para que se ajuste a sus gustos).

Las cookies también permiten la recolección de información personal con fines publicitarios.

Tipos de Cookies

Alternate Text

Una de las clasificaciones más usuales de las cookies las divide según tres criterios: i) su duración, ii) su origen y iii) su función.

En cuanto a su duración —es decir, cuánto tiempo van a permanecer en el dispositivo—, las cookies pueden ser de sesión (se borran al cerrar el navegador o la sesión) o persistentes (permanecen tras cerrar el navegador hasta que sean borradas o caduquen). Por su origen, las cookies pueden ser de origen (first-party cookie) o de terceros. Cuando son de origen, significa que las instala el servidor de la página web que estamos visitando, mientras que, si son de terceros, quien las instala es un servidor diferente al de la página en la que navegamos. En cuanto a su función, las cookies pueden ser necesarias (sin ellas no es posible la navegación, e.g. compras en línea), de funcionalidad (mejoran la experiencia de navegación, e.g. reconocer el idioma), estadísticas (agregan datos sobre cómo se usa la web) o de marketing (buscan adaptar la publicidad que recibe el usuario para que se ajuste a sus gustos).

Fingerprinting

Alternate Text

Es una técnica de identificación (y de seguimiento) de un usuario web a través de la recolección de datos relacionados con su navegador y/o con la configuración de su dispositivo (nombre y versión del navegador, tipo y tamaño de la pantalla del dispositivo, tamaño de la memoria, resolución de pantalla, configuración sobre anuncios web e idioma del dispositivo/navegador, entre otros). La combinación de las configuraciones del dispositivo y del navegador permiten crear una huella única que representa al usuario.

Sesgos cognitivos y sociales en tecnología

Como con toda actividad humana, muchas veces nos acercamos al desarrollo y despliegue de tecnología a través de sesgos o prejuicios. Estos sesgos a menudo se subestiman y sus efectos usualmente no son mitigados en el despliegue de la tecnología. Los impactos de estos sesgos incorporados en modelos estadísticos o en conjuntos de datos crecen proporcionalmente a la expansión del despliegue de sistemas informáticos, de algoritmos y de tecnologías de IA. A continuación, mostraremos algunos ejemplos de los tipos de sesgos que pueden influenciar el desarrollo o implementación de diferentes sistemas o tecnologías.

          
            Imágen que representa Sesgos cognitivos y sociales en tecnología

Sesgo de automatización

Alternate Text

Este sesgo se caracteriza por un exceso de confianza en los sistemas automatizados. A veces los sistemas automatizados no detectan ciertos datos y ofrecen información contradictoria o contraintuitiva para un observador humano.

Un resultado perverso de este sesgo es la presunción de veracidad o infalibilidad de la decisión sugerida por la máquina o por el sistema, con la consecuente traslación de la carga de la prueba sobre los resultados de estos sistemas a los afectados.

Sesgo de confirmación

Alternate Text

Este sesgo se deriva de la tendencia humana a recolectar o interpretar evidencia de manera que valide sus creencias, expectativas o hipótesis. En particular, se evidencia cuando la selección de variables, modelos o algoritmos se encuentran encaminadas a validar la hipótesis de quien creó el sistema de inteligencia artificial.

Sesgo de atribución de grupo

Alternate Text

Este sesgo se refiere a asumir que una característica que es verdadera para un elemento de un conjunto también lo es para el resto de elementos del conjunto. Se presenta cuando se hacen inferencias generales basadas en una situación particular.

En el aprendizaje automatizado, este sesgo se materializa en la creación del modelo o en la selección de un conjunto de datos de entrenamiento que no refleje la realidad.

Sesgo implícito

Alternate Text

Se trata de usar representaciones mentales propias para hacer suposiciones sobre un conjunto de datos o sobre un modelo matemático determinado.

Sesgo de informe

Alternate Text

Este sesgo se caracteriza por la percepción distorsionada de un fenómeno o de una situación teniendo en cuenta la cantidad de veces que el observador percibe la misma. Si el problema no se mitiga o se corrige adecuadamente, el sentido erróneo puede incorporarse a los resultados y predicciones de un sistema de aprendizaje automático. Por ejemplo, un sistema de aprendizaje automático podría creer que la risa es más común que la respiración teniendo en cuenta que en los libros (en general) la frecuencia con que aparece la palabra “respirar” es menor a la frecuencia con que aparece la palabra “reír”.