Sobre este blog
Herramientas, tutoriales, noticias de ingeniería del software y diseño de sistemas de información aplicados a la investigación, con enfásis en el sector agroalimentario y el software libre.
Ahora puedes apuntarte al Boletín semanal de Agrobits en http://agrobits.spadial.com.
Uno de los aspectos a estudiar durante el análisis de la gestión de datos de investigación en el INIA son las reticencias, problemas o desventajas que encuentran los investigadores a la hora de compartir sus datos. La mayoría son los esperados, y comunes a la mayoría de las áreas de investigación:
Un problema que no esperabamos es el del anonimato. En algunos campos de investigación, los científicos pueden acceder a información o realizar experimentos o medidas con la condición que los datos no se hagan públicos. Pensemos en el caso de estudios médicos en el que los pacientes no quieren ser identificados, pero el problema es extensible a estudios financieros, comerciales, de seguridad informática, de producción animal, ... Los colaboradores (enfermos, empresas, criadores) desean que se realicen estudios que les permitan un mejor conocimiento de su sector, y la solución a alguno de sus problemas; pero no desean que sus datos sean públicos. Si están dispuestos a que los datos sean públicos de manera agregada como parte de los resultados de la investigación.
Por otro lado, los investigadores de estos sectores podrían avanzar en su investigación si pudieran acceder a los datos que otros colegas hubieran publicado con anterioridad; pero que no han hecho por la limitación impuesta por sus colaboradores.
Esto me ha llevado a pensar durante un tiempo en estrategias para anonimizar los datos científicos. Mi idea general es la de un sistema que mantiene la información individualizada, pero que usa una colección de claves públicas y privadas por dataset de manera que aún accediendo a los datos no se pueden relacionar con los de otras tablas. Por otro lado, el sistema es capaz de devolver datos agregados conforme a unas restricciones (temporales, espaciales, de volumen de la información utilizada) de forma que los usuarios pueden realizar consultas agregadas sin acceder a la totalidad de la información. Un sistema de este tipo, si bien está descrito a muy alto nivel, garantiza:
Por el momento, no he encontrado un sistema con estas características, aunque he descubierto el trabajo de DNAdigest, una organización británica sin ánimo de lucro dedicada a promover que los investigadores publiquen y compartan los datos genéticos de sus estudios, mientras se mantiene la privacidad de los individuos participantes.
La aproximación que hacen al problema viene descrita en el workshop que impartieron en septiembre de 2013 es similar a la que había pensado, aunque más génerica si cabe, ya que plantea una API, una interfaz común que permitiría el acceso a diferentes repositorios de información (genética en este caso) manteniendo la confidencialidad de los participantes.
Supongo que es el momento de averiguar cuál es el estado de desarrollo de este sistema y cómo podemos implementar dicha API en la estrategia de gestión de datos de investigación del INIA, de forma que nuestros investigadores puedan sacar el mayor partido de compartir los datos de investigación manteniendo la confidencialidad y el anonimato de los socios participantes.
Y los lectores de este blog, ¿pensáis que os podéis beneficiar de un sistema de este tipo, accediendo a la información pertinente de otros estudios sin necesidad de un acceso a los datasets completos? ¿habéis sufrido casos en los que sabéis que existen estudios que podrían ayudar a confirmar los vuestros, pero no es posible acceder a sus datos experimentales por estos motivos? ¿cómo lo habéis resuelto? ¿cómo compartis vuestra información cuando se os requiere en uno de estos casos? ¿en que casos lo hacéis? Dejad vuestras experiencias e ideas en los comentarios de la página.