Ícono del sitio La Neta Neta

Headroom, que utiliza IA para potenciar las videoconferencias, recauda 5 millones de dólares

Headroom, que utiliza IA para potenciar las videoconferencias, recauda 5 millones de dólares

La videoconferencia se ha convertido en la piedra angular de cuántos de nosotros trabajamos en estos días, tanto que un servicio líder, Zoom, se ha convertido en un verbo debido a lo mucho que se usa.

Pero, ¿eso significa que las videoconferencias funcionan tan bien como deberían? Hoy, una nueva startup llamada Espacio libre está saliendo de forma sigilosa, aprovechando una batería de herramientas de inteligencia artificial (visión por computadora, procesamiento de lenguaje natural y más) con la creencia de que la respuesta a esa pregunta es clara, no hay mala interrupción de Wi-Fi aquí, “no”.

Headroom no solo aloja videoconferencias, sino que luego proporciona transcripciones, resúmenes con aspectos destacados, reconocimiento de gestos, calidad de video optimizada y más, y hoy anuncia que ha recaudado una ronda inicial de $ 5 millones mientras se prepara para lanzar su servicio gratuito en el mundo. .

Puede registrarse en la lista de espera para probarlo y obtener otras actualizaciones aquí.

La financiación proviene de Anna Patterson de Gradient Ventures (el fondo de riesgo de IA de Google); Evan Nisselson de LDV Capital (empresas de respaldo de VC especializadas en la creación de tecnologías visuales); el fundador de Yahoo, Jerry Yang, ahora de AME Cloud Ventures; Ash Patel de Morado Ventures; Anthony Goldbloom, cofundador y director ejecutivo de Kaggle.com; y Serge Belongie, decano asociado de Cornell Tech y profesor de visión artificial y aprendizaje automático.

Es un grupo interesante de patrocinadores, pero eso podría deberse a que los propios fundadores tienen antecedentes bastante ilustres con años de experiencia en el uso de algunas de las tecnologías visuales más avanzadas para crear otros servicios empresariales y de consumo.

Julian Green, un trasplante británico, estuvo recientemente en Google, donde dirigió los productos de visión por computadora de la compañía, incluida la API Cloud Vision que se lanzó bajo su supervisión. Llegó a Google a través de la adquisición de su startup anterior, Jetpac, que usaba aprendizaje profundo y otras herramientas de inteligencia artificial para analizar fotos y hacer recomendaciones de viaje. En una vida anterior, fue uno de los cofundadores de Houzz, otro tipo de plataforma que gira en torno a la interactividad visual.

Mientras tanto, Andrew Rabinovich, nacido en Rusia, pasó los últimos cinco años en Magic Leap, donde fue jefe de IA y, antes de eso, director de aprendizaje profundo y jefe de ingeniería. Antes de eso, él también estuvo en Google, como ingeniero de software especializado en visión artificial y aprendizaje automático.

Se podría pensar que dejar sus trabajos para construir un servicio de videoconferencia mejorado fue un movimiento oportunista, dado el gran aumento de uso que ha tenido el medio este año. Green, sin embargo, me dice que se les ocurrió la idea y comenzaron a construirla a fines de 2019, cuando el término “COVID-19” ni siquiera existía.

“Pero ciertamente ha hecho de esta un área más interesante”, bromeó, y agregó que también hizo que recaudar dinero fuera significativamente más fácil. (La ronda cerró en julio, dijo).

Dado que Magic Leap había estado en el limbo durante mucho tiempo, AR y VR han demostrado ser increíblemente difíciles de construir negocios, especialmente a corto y mediano plazo, incluso para una empresa nueva con cientos de millones de dólares en respaldo de VC, y podrían haberlo hecho. probablemente usó algunas ideas más interesantes para pivotar; y que Google es Google, con toda la tecnología teniendo un punto final en Mountain View, también es curioso que la pareja decidiera trabajar por su cuenta para construir Headroom en lugar de proponer la construcción de la tecnología a sus respectivos empleadores anteriores.

Green dijo que las razones eran dos. El primero tiene que ver con la eficiencia de construir algo cuando eres pequeño. “Disfruto moverme a la velocidad de inicio”, dijo.

Y el segundo tiene que ver con los desafíos de construir cosas en plataformas heredadas versus nuevas, desde cero.

“Google puede hacer lo que quiera”, respondió cuando le pregunté por qué no pensó en traer estas ideas al equipo que trabaja en Meet (o Hangouts si no es un usuario comercial). “Pero para ejecutar IA en tiempo real en videoconferencias, debe crearlo desde el principio. Empezamos con esa suposición”, dijo.

De todos modos, las razones por las que Headroom es interesante también serán probablemente las que le planteen grandes desafíos. La nueva ubicuidad (y nuestra vida actual trabajando en casa) puede hacernos más abiertos a usar videollamadas, pero para bien o para mal, ahora todos estamos bastante acostumbrados a lo que ya usamos. Y para muchas empresas, ahora han pagado como usuarios premium por un servicio u otro, por lo que pueden ser reacios a probar plataformas nuevas y menos probadas.

Pero como hemos visto tantas veces en el campo de la tecnología, a veces vale la pena llegar tarde, y los pioneros no siempre son los ganadores.

La primera iteración de Headroom incluirá funciones que automáticamente tomarán transcripciones de toda la conversación, con la capacidad de usar la reproducción del video para editar la transcripción si algo salió mal; ofrecer un resumen de los puntos clave que se abordan durante la llamada; e identificar gestos para ayudar a cambiar la conversación.

Y Green me dice que ya están trabajando en funciones que se agregarán en futuras iteraciones. Cuando la videoconferencia utiliza materiales de presentación complementarios, el motor también puede procesarlos para resaltarlos y transcribirlos.

Y otra característica optimizará los píxeles que ve para obtener una calidad de video mucho mejor, lo que debería ser especialmente útil cuando usted o la persona o personas con las que está hablando tienen malas conexiones.

“Puedes entender dónde y cuáles son los píxeles en una videoconferencia y enviar los correctos”, explicó. “La mayor parte de lo que ven de mí y de mis antecedentes no cambia, por lo que no es necesario enviarlos todo el tiempo”.

Todo esto aprovecha algunos de los aspectos más interesantes de la visión artificial sofisticada y los algoritmos de lenguaje natural. La creación de un resumen, por ejemplo, se basa en tecnología que es capaz de descubrir no solo lo que está diciendo, sino también cuáles son las partes más importantes de lo que usted o alguien más está diciendo.

Y si alguna vez has estado en una videollamada y te resultó difícil dejar en claro que querías decir algo, sin interrumpir directamente al orador, comprenderás por qué los gestos pueden ser muy útiles.

Pero también pueden ser útiles si un orador quiere saber si está perdiendo la atención de la audiencia: la misma tecnología que usa Headroom para detectar gestos para personas deseosas de hablar también se puede usar para detectar cuándo están aburrirse o enojarse y pasar esa información a la persona que habla.

“Se trata de ayudar con EQ”, dijo, con lo que estoy seguro fue un poco de su lengua en su mejilla, pero, de nuevo, estábamos en Google Meet, y es posible que haya leído mal eso.

Y eso nos lleva a por qué Headroom está aprovechando una oportunidad interesante. En el mejor de los casos, cuando funcionan, herramientas como estas no solo potencian las videoconferencias, sino que también tienen el potencial de resolver algunos de los problemas con los que puede haberse encontrado en las reuniones cara a cara. Construir software que en realidad podría ser mejor que el “real” es una forma de asegurarse de que pueda tener poder de permanencia más allá de las demandas de nuestras circunstancias actuales (que con suerte no serán circunstancias permanentes).


Source link
Salir de la versión móvil