La ciencia de datos no es popularidad

527 82 107
                                    

Veo que siempre hay gente enfadada cuando no obtiene una buena calificación en los Wattys.

Incluso, no solo porque piense que su obra es buena, sino porque lee al azar algunas historias de las seleccionadas y siente que la suya es mejor.

Ahora bien, la pregunta es "¿qué es mejor que qué?". O correctamente hablando ¿Cuál es el criterio de elegibilidad?

No lo sabemos a ciencia cierta. Y la plataforma no se esfuerza en explicarlo. Es más, me atrevería a apostar de que no quieren hablar claro al respecto.

Y pretendo explicar el porqué. Bueno, solo mi interpretación del porqué.

He buscado y leído en internet verdaderas locuras con respecto a lo que hacen los algoritmos de wattpad para seleccionar historias y es mi humilde opinión que la cosa es bastante mas simple de lo que parece.

Cuando la gente de wattpad dice que "aplicará la ciencia de datos" comete el pecado de suponer que todo el mundo sabe lo que es "la ciencia de datos".

Evidentemente no se puede explicar lo que es "la ciencia de datos" en un texto corto. Es más fácil explicar lo que NO es. Entonces nos dicen que la cosa no pasa por la popularidad. Y, por supuesto, no se lo cree nadie.

Y es normal que no se lo crea ni dios porque a muy pocos se le ocurre como elegir un texto sobre otro de forma objetiva sin analizar el volumen de datos asociado al texto y, nuevamente, el único volumen de datos asociado al texto que conocen no son otros que las lecturas, los votos y los comentarios. Y esto vuelve a ser "popularidad".

De esa forma, todos quedamos dando vuelta en un bucle de "ciencia de datos" = "popularidad" y no hay quien nos saque de allí.

Dado que tengo la patología de apuntarme como voluntario a las tareas mas insospechadas, hoy voy a intentar explicar cómo pueden evaluarse textos de forma objetiva sin mirar la "popularidad".

Dado que en una vida pasada fui informático de profesión, voy a plantear mi idea de cómo se hace gestión de data masiva. Repito: solamente es mi idea. No conozco la forma en que lo hace wattpad.

Por supuesto, este trabajo solo tiene el mérito de ser mi sincera opinión de lo que YO haría si estuviera dirigiendo un proyecto de selección de textos de forma objetiva dentro del volumen que representa wattpad.

Vamos a ello.

Primero voy a aclarar algunas premisas.

· No tendremos en cuenta ni carátulas, ni títulos, ni sinopsis. En primer lugar, porque pueden que no hayan sido hechos por el autor. En segundo lugar, debido a que son la "cáscara" y nada nos dicen sobre el contenido.

· Otro tema importante es conceptual e inherente al contenido. A ver si me explico, no es lo mismo analizar textos médicos, que textos legales, o textos orientados a la enseñanza básica, etc.

· En este caso, entonces, el método que "diseñaré" solo sería válido para narrativa general, ya que no considerará ningún otro aspecto del contenido (uso adecuado de términos legales, médicos, etc.). Aclaración importante: este método no vale para poesía, digo por poner un ejemplo.

El método se basa en aplicar diversos filtros de legibilidad.

Filtro UNO.

Corrector ortográfico. Básicamente cualquier software de mercado ya lo hace, el mismo corrector del teléfono móvil o del Word.

Antes deben definirse los algoritmos de excepciones, por ejemplo, pero no solo limitado a esto: el uso de nombres no debería validarse, el uso de expresiones lingüísticas, tal vez no validar lo que esté inmerso en un diálogo, etc. etc.

La ciencia de datosDonde viven las historias. Descúbrelo ahora