Colaborador de Liz O’Sullivan
Liz O’Sullivan es directora ejecutiva de Paridad, una plataforma que automatiza el riesgo de modelo y la gobernanza algorítmica para la empresa. También asesora al Proyecto de Supervisión de la Tecnología de Vigilancia y la Campaña para Detener a los Robots Asesinos en todo lo relacionado con la inteligencia artificial.
Más publicaciones de este colaborador Cómo se equivocó la ley con Apple Card
Los defensores de la justicia algorítmica han comenzado a ver sus proverbiales “días en la corte” con investigaciones legales de empresas como UHG y Apple Card. El caso de la Apple Card es un claro ejemplo de cómo las leyes actuales contra la discriminación no alcanzan el ritmo acelerado de la investigación científica en el campo emergente de la equidad cuantificable.
Si bien puede ser cierto que Apple y sus aseguradores fueron declarados inocentes de violaciones de préstamos justos, el fallo llegó con advertencias claras que deberían ser una señal de advertencia para las empresas que utilizan el aprendizaje automático dentro de cualquier espacio regulado. A menos que los ejecutivos comiencen a aceptar la equidad algorítmica mas serio, sus días por delante estarán llenos de desafíos legales y daños a la reputación.
¿Qué pasó con Apple Card?
A finales de 2019, el líder de startups y celebridad de las redes sociales, David Heinemeier Hansson, planteó un tema importante sobre Gorjeo, con mucha fanfarria y aplausos. Con casi 50.000 me gusta y retuits, pidió a Apple y a su socio suscriptor, Goldman Sachs, que explicaran por qué a él y a su esposa, que comparten la misma capacidad financiera, se les otorgarían límites de crédito diferentes. Para muchos en el campo de la equidad algorítmica, fue un momento decisivo ver que los problemas que defendemos se generalizaron, culminando en una investigación del Departamento de Servicios Financieros de Nueva York (DFS).
A primera vista, puede parecer alentador para los suscriptores de crédito que el DFS concluyó en marzo que el algoritmo de suscripción de Goldman no violó las estrictas reglas de acceso financiero creadas. en 1974 proteger a las mujeres y las minorías de la discriminación crediticia. Si bien fue decepcionante para los activistas, este resultado no sorprendió a quienes trabajamos en estrecha colaboración con los equipos de datos en finanzas.
Existen algunas aplicaciones algorítmicas para instituciones financieras donde los riesgos de la experimentación superan con creces cualquier beneficio, y la suscripción de crédito es una de ellas. Podríamos haber predicho que Goldman sería declarado inocente, porque las leyes de equidad en los préstamos (si están desactualizadas) son claras y estrictamente aplicadas.
Y, sin embargo, no tengo ninguna duda de que el algoritmo Goldman / Apple discrimina, junto con todos los demás algoritmos de calificación crediticia y suscripción del mercado actual. Tampoco dudo que estos algoritmos se desmoronarían si los investigadores tuvieran acceso a los modelos y datos que necesitaríamos para validar esta afirmación. Lo sé porque el NY DFS parcialmente lanzado su metodología para examinar el algoritmo de Goldman y, como era de esperar, su auditoría estuvo muy por debajo de los estándares de los auditores de algoritmos modernos en la actualidad.
¿Cómo evaluó DFS (según la ley actual) la equidad de Apple Card?
Para probar que el algoritmo de Apple era “justo”, DFS consideró primero si Goldman había utilizado “características prohibidas” de posibles solicitantes como el sexo o el estado civil. Este fue fácil de aprobar para Goldman: no incluyen la raza, el género o el estado civil como información para el modelo. Sin embargo, sabemos desde hace años que algunas características del modelo pueden actuar como “Proxies” para clases protegidas.
Si es negro, mujer y está embarazada, por ejemplo, su probabilidad de obtener crédito puede ser menor que el promedio de los resultados entre cada categoría protegida general.
La metodología DFS, basada en 50 años de precedentes legales, no mencionó si consideraron esta cuestión, pero podemos suponer que no. Porque si lo hubieran hecho, habrían descubierto rápidamente que puntaje de crédito está tan estrechamente relacionado con la raza que algunos estados están considerando prohibir su uso para seguro de accidentes. Las funciones de proxy solo han entrado en el centro de atención de la investigación recientemente, dándonos nuestro primer ejemplo de cómo la ciencia ha superado la regulación.
En ausencia de características protegidas, DFS luego buscó perfiles de crédito que fueran similares en contenido pero pertenecieran a personas de diferentes clases protegidas. En cierto sentido impreciso, buscaron averiguar qué pasaría con la decisión de crédito si “cambiamos” el género en la aplicación. ¿Recibirá el mismo trato una versión femenina del solicitante masculino?
Intuitivamente, esta parece una forma de definir “justo”. Y lo es: en el campo de la equidad del aprendizaje automático, existe un concepto llamado “Prueba de volteo” y es una de las muchas medidas de un concepto llamado “Equidad individual”, que es exactamente lo que parece. Le pregunté a Patrick Hall, científico principal de bnh.ai, una firma de abogados boutique líder en inteligencia artificial, sobre el análisis más común en la investigación de casos de préstamos justos. Refiriéndose a los métodos que DFS usó para auditar Apple Card, lo llamó regresión básica, o “una versión de la década de 1970 de la prueba de volteo”, dándonos el ejemplo número dos de nuestras leyes insuficientes.
Un nuevo vocabulario para la equidad algorítmica
Desde el artículo seminal de Solon Barocas “Impacto desigual de Big Data” En 2016, los investigadores han trabajado arduamente para definir conceptos filosóficos básicos en términos matemáticos. Varias conferencias han surgido, con nuevas pistas de equidad emergiendo en los eventos de IA más notables. El campo se encuentra en un período de hipercrecimiento, donde la ley aún no ha podido seguir el ritmo. Pero al igual que lo que sucedió con el industria de la ciberseguridad, este indulto legal no durará para siempre.
Quizás podamos perdonar a DFS por su auditoría de softbol dado que las leyes que gobiernan los préstamos justos nacen del movimiento de derechos civiles y no han evolucionado mucho en los más de 50 años desde su inicio. Los precedentes legales se establecieron mucho antes de que despegara realmente la investigación sobre la equidad del aprendizaje automático. Si DFS hubiera estado debidamente equipado para hacer frente al desafío de evaluar la imparcialidad de la Apple Card, habrían utilizado la vocabulario robusto para la evaluación algorítmica que ha florecido en los últimos cinco años.
El informe DFS, por ejemplo, no menciona la medición de “probabilidades igualadas”, una línea de investigación notoria que se hizo famosa por primera vez en 2018 por Joy Buolamwini, Timnit Gebru y Deb Raji. Su “Tonos de género” El artículo demostró que los algoritmos de reconocimiento facial adivinan mal en rostros femeninos oscuros con más frecuencia que en sujetos con piel más clara, y este razonamiento es válido para muchas aplicaciones de predicción más allá de la visión por computadora.
Las probabilidades igualadas preguntarían al algoritmo de Apple: ¿con qué frecuencia predice correctamente la solvencia crediticia? ¿Con qué frecuencia adivina mal? ¿Existen disparidades en estas tasas de error entre personas de diferentes géneros, razas o estado de discapacidad? Según Hall, estas medidas son importantes, pero simplemente demasiado nuevas para haber sido codificadas por completo en el sistema legal.
Si resulta que Goldman subestima regularmente a las solicitantes femeninas en el mundo real, o asigna tasas de interés más altas de las que los solicitantes negros realmente merecen, es fácil ver cómo esto perjudicaría a estas poblaciones desatendidas a escala nacional.
La trampa 22 de los servicios financieros
Los auditores modernos saben que los métodos dictados por los precedentes legales no logran captar los matices de manera justa para las combinaciones interseccionales dentro de las categorías minoritarias, un problema que se ve agravado por la complejidad de los modelos de aprendizaje automático. Si es negro, mujer y está embarazada, por ejemplo, su probabilidad de obtener crédito puede ser menor que el promedio de los resultados entre cada categoría protegida general.
Es posible que estos grupos subrepresentados nunca se beneficien de una auditoría integral del sistema sin prestar especial atención a su singularidad, dado que el tamaño de la muestra de las minorías es, por definición, un número menor en el conjunto. Por eso los auditores modernos prefieren “Justicia a través de la conciencia” enfoques que nos permitan medir resultados con conocimiento explícito de la demografía de los individuos de cada grupo.
Pero hay un Catch-22. En los servicios financieros y otros campos altamente regulados, los auditores a menudo no pueden usar la “justicia a través de la conciencia” porque se les puede impedir que recopilen información confidencial desde el principio. El objetivo de esta restricción legal era evitar la discriminación de los prestamistas. En un cruel giro del destino, este da cobertura a la discriminación algorítmica, lo que nos da nuestro tercer ejemplo de insuficiencia jurídica.
El hecho de que no podamos recopilar esta información paraliza nuestra capacidad para descubrir cómo los modelos tratan a los grupos desatendidos. Sin él, es posible que nunca demostremos lo que sabemos que es cierto en la práctica: las mamás de tiempo completo, por ejemplo, tendrán archivos de crédito más delgados de manera confiable, porque no ejecutan todas las compras basadas en el crédito con los dos nombres de los cónyuges. Es mucho más probable que los grupos minoritarios sean trabajadores por encargo, empleados que reciben propinas o participen en industrias basadas en efectivo, lo que lleva a puntos en común entre sus perfiles de ingresos que resultan menos comunes para la mayoría.
Es importante destacar que estas diferencias en los archivos de crédito de los solicitantes no se traducen necesariamente en una verdadera responsabilidad financiera o solvencia. Si su objetivo es predecir la solvencia crediticia con precisión, querrá saber dónde falla el método (por ejemplo, una calificación crediticia).
Qué significa esto para las empresas que utilizan IA
En el ejemplo de Apple, vale la pena mencionar un epílogo esperanzador de la historia en la que Apple realizó una actualización consecuente de su política de crédito para combatir la discriminación que está protegida por nuestras leyes anticuadas. En el anuncio del CEO de Apple, Tim Cook, se apresuró a destacar una “falta de equidad en la forma en que la industria [calculates] puntajes de crédito “.
Su nueva política permite a los cónyuges o padres combinar archivos de crédito de modo que el archivo de crédito más débil pueda beneficiarse del más fuerte. Es un gran ejemplo de una empresa que piensa por adelantado en pasos que realmente pueden reducir la discriminación que existe estructuralmente en nuestro mundo. Al actualizar sus políticas, Apple se adelantó a la regulación que puede surgir como resultado de esta investigación.
Esta es una ventaja estratégica para Apple, porque NY DFS hizo mención exhaustiva de la insuficiencia de las leyes actuales que gobiernan este espacio, lo que significa que las actualizaciones de la regulación pueden estar más cerca de lo que muchos piensan. Para citar a la Superintendente de Servicios Financieros Linda A. Lacewell: “El uso de la calificación crediticia en su forma actual y las leyes y regulaciones que prohíben la discriminación en los préstamos necesitan fortalecimiento y modernización”. En mi propia experiencia trabajando con reguladores, esto es algo que las autoridades de hoy están muy entusiasta para explorar.
No tengo ninguna duda de que los reguladores estadounidenses están trabajando para mejorar las leyes que gobiernan la IA, aprovechando este vocabulario sólido para la igualdad en la automatización y las matemáticas. los Reserva Federal, OCC, CFPB, FTC y Congreso todos están ansiosos por abordar la discriminación algorítmica, incluso si su ritmo es lento.
Mientras tanto, tenemos todas las razones para creer que algorítmica la discriminación es desenfrenada, en gran parte porque la industria también ha tardado en adoptar el lenguaje académico que han traído los últimos años. Queda poca excusa para que las empresas no aprovechen este nuevo campo de la equidad y erradiquen la discriminación predictiva que de alguna manera está garantizada. Y la UE está de acuerdo, con proyectos de ley que se aplican específicamente a la IA que se aprobarán en algún momento de los próximos dos años.
El campo de la equidad del aprendizaje automático ha madurado rápidamente, con nuevas técnicas descubiertas cada año y una miríada de herramientas para ayudar. El campo recién ahora está alcanzando un punto en el que esto se puede prescribir con cierto grado de automatización. Organismos de normalización han intervenido para brindar orientación para reducir la frecuencia y gravedad de estos problemas, incluso si la ley estadounidense es lenta en adoptar.
Porque si la discriminación por algoritmo es intencional, es ilegal. Por lo tanto, cualquier persona que utilice análisis avanzados para aplicaciones relacionadas con la atención médica, la vivienda, la contratación, los servicios financieros, la educación o el gobierno probablemente esté infringiendo estas leyes sin saberlo.
Hasta que se disponga de una guía reguladora más clara para las innumerables aplicaciones de la IA en situaciones sensibles, la industria está sola para determinar qué definiciones de equidad son las mejores.