Data Collection
Audio Collection for Toxic Speech Detection
The Challenge
Our client, an international technology company, was looking for a partner to assist in a large conversational speech data collection project. Toxic speech is a growing concern in today's society with the rise of hate speech, online harassment, and other verbal attacks. The goal was to collect a minimum of 40 hours of highly toxic speech across two prescribed topics.
• • • •The Solution• • • •
La solución que propusimos fue realizar una recopilación moderada, tanto presencial como remota, con la participación de más de 140 personas a quienes se les proporcionaron situaciones de la vida real e instrucciones. Grabamos a cada grupo, compuesto por uno a cuatro participantes, para asegurar una conversación productiva y genuina, teniendo en cuenta la diversidad demográfica. Seleccionamos participantes de entre 18 y 70 años para garantizar la diversidad de género, educación y ubicación geográfica, asegurando así una recopilación de datos exitosa y sólida.
Logramos recopilar 100 horas de datos trabajando estrechamente con los participantes, superando las expectativas del cliente. Nuestro socio quedó muy satisfecho con el resultado, que incluyó más del 40% de discurso tóxico, así como con la calidad y diversidad de los datos obtenidos.
Este caso demuestra la importancia de una recopilación precisa de datos para las tecnologías de detección de discurso. Dado el aumento del discurso de odio en línea, es crucial contar con un conjunto de datos diverso que permita identificar los matices del lenguaje ofensivo y mejorar la detección de discurso tóxico en diversos contextos.
En DataForce, nos enorgullece nuestra capacidad para abordar proyectos desafiantes mediante soluciones innovadoras. El éxito de este proyecto es testimonio de nuestra experiencia en análisis y recopilación de datos. A través de colaboraciones como esta, contribuimos al desarrollo de tecnologías avanzadas que empoderan a las personas y organizaciones para combatir los efectos perjudiciales del discurso tóxico.

DataForce has a global community of over 1,000,000 members from around the globe and linguistic experts in over 250 languages. DataForce is its own platform but can also use client or third-party tools. This way, your data is always under control.