La inteligencia artificial (IA) continúa avanzando a pasos agigantados y OpenAI es una de las compañías líderes en este campo. Recientemente, OpenAI ha lanzado un nuevo programa de colaboración para recopilar conjuntos de datos de terceros con el objetivo de entrenar sus modelos de IA. Este innovador programa, llamado OpenAI Data Partnerships, tiene como objetivo obtener información que no esté fácilmente accesible en línea para el público en general.
OpenAI Data Partnerships se enfoca en la recolección de conjuntos de datos a gran escala tanto de fuentes privadas como públicas. La compañía no solo busca datos cuantitativos o en formato de texto, sino que también acepta imágenes, audio y video. Su objetivo es obtener información sobre "cualquier tema" y en "cualquier idioma" siempre y cuando exprese la intención humana. Esta amplia recopilación de datos permitirá a OpenAI mejorar sus herramientas, como su tecnología de reconocimiento automático del habla, que se utiliza para transcribir palabras habladas.
Esta iniciativa también se alinea con la expansión reciente de ChatGPT, el modelo de IA conversacional desarrollado por OpenAI. Con la capacitación adicional proporcionada por los datos recopilados, ChatGPT se volverá aún más capaz de mantener conversaciones similares a las humanas y mejorar otras herramientas relacionadas.
El programa OpenAI Data Partnerships también tiene como objetivo expandir las capacidades de GPT-4 Turbo, el modelo de IA de OpenAI orientado al consumidor. GPT-4 Turbo ha sido actualizado para proporcionar respuestas más complejas y significativas a los usuarios. OpenAI ya ha comenzado a colaborar con organizaciones interesadas, incluido el gobierno de Islandia, para mejorar la capacidad de GPT-4 Turbo para comprender consultas realizadas en islandés.
Si una organización privada o pública desea participar en el programa, un representante puede enviar un formulario a través del sitio web de la compañía y proporcionar información sobre el tipo y tamaño de los datos que desean compartir. OpenAI ofrece dos vías para los conjuntos de datos: el archivo de código abierto y el camino de conjuntos de datos privados. El archivo de código abierto es ideal para conjuntos de datos relevantes para el entrenamiento de modelos de lenguaje, ya que los datos se compartirán públicamente para que cualquiera pueda usarlos. Por otro lado, el camino de conjuntos de datos privados permitirá a las empresas enviar información que se utilizará para entrenar modelos de IA propietarios. Esto es recomendado para empresas o instituciones que deseen mantener sus datos confidenciales. Sin embargo, OpenAI deja en claro que no está buscando conjuntos de datos que contengan información personal o sensible.
Dado el creciente número de usuarios de ChatGPT, que actualmente cuenta con aproximadamente 100 millones de usuarios activos semanalmente en todo el mundo, la privacidad se ha convertido en un punto focal importante para OpenAI. La compañía afirma que no utiliza los datos generados por su API para entrenar sus modelos, a menos que un usuario envíe explícitamente información a través de un formulario de consentimiento. Sin embargo, el manejo de los datos recopilados a través de esta iniciativa será objeto de escrutinio, especialmente en lo que respecta a los conjuntos de datos privados.
Es importante destacar que OpenAI se compromete a mantener la confidencialidad de los datos proporcionados a través de la vía de conjuntos de datos privados. Esto permitirá a las organizaciones colaborar con OpenAI sin preocuparse por la divulgación no autorizada de su información confidencial.