Inicio Análisis de casos Así ha construido el NYT el modelo técnico que les permite medir...

Así ha construido el NYT el modelo técnico que les permite medir qué hace que los lectores se suscriban

Por

27 noviembre, 2018

Uno de los modelos de suscripción más exitosos en este momento en la prensa mundial es el del New York Times, analizado y seguido por muchos otros como ejemplo de que un medio puede financiarse en gran parte por el pago por contenidos. Pero, ¿qué hace en realidad que los lectores se suscriban a The NYT? ¿Por qué están dispuestos a pagar los lectores? ¿Cómo se construye técnicamente el modelo que permite saberlo?

El director de Analítica del periódico neoyorquino, Daniel Mill, ha desvelado en gran parte cómo trabajan internamente para medir lo que hace que los lectores se suscriban a The New York Times. Según Mill, entender lo que impulsa a alguien a comprar una suscripción de noticias no es nada simple. Cada suscriptor potencial está expuesto a diferentes noticias, anuncios y mensajes tanto en el propio periódico como fuera de él. “Separar estas influencias es una tarea abrumadora, pero es necesario comprender cómo funciona para construir un negocio de suscripción efectivo. Si vamos a gastar dinero en marketing y medios de manera eficiente, necesitamos cuantificar y entender cómo cada estímulo, tanto dentro como fuera del sitio, influye y contribuye a las suscripciones”.

En el artículo que publica Mill, en el que desvela desde un punto de vista técnico cómo trabajan, incide en que “existe una industria completa para abordar este mismo problema, con diferentes soluciones desde Market Mix Models (MMM), hasta modelos de atribución de seguimiento de usuarios o encuestas. Si bien todas estas metodologías, indica Mills, ofrecen la capacidad de dar claves, cada una tiene un gran coste en términos de tiempo y dinero.

El New York Times, para evitar este coste en tiempo y dinero, ha apostado por construir su propia plataforma, ya que posee los datos que necesita de manera interna.

“Cuando se trabaja con un proveedor, se puede gastar una cantidad considerable de tiempo y recursos en pasar los datos, validarlos, construir un modelo y, finalmente, volver a presentar el trabajo. Debido a los pasos requeridos, un modelo típico puede tardar semanas en llegar a buen término. Pero, ¿y si tenemos que reaccionar a las respuestas del mercado de manera más inmediata? Para resolver este problema, decidimos construir una infraestructura de Market Mix Model internamente”, revela Mills.

(En términos estadísticos, un MMM es un proceso para desemparejar los eventos de conversión de suscriptores. Por ejemplo, si quisiéramos determinar la efectividad de una campaña de televisión en las suscripciones, mediríamos la correlación histórica de la televisión con las suscripciones después de mostrar los efectos de las ventas, la estacionalidad y otras variables del marketing. “En pocas palabras, para comprender cómo cualquier canal está impulsando las suscripciones, necesitamos construir y cuantificar todos los controladores de forma integral).

Te puede interesar: Cogency, el proyecto piloto que busca nuevas soluciones para los medios de comunicación basadas en la Web3 y el "blockchain"

Gestión de datos

Según Mill, la creación del MMM en casa comienza con una ventaja inmediata: la mayoría de los datos necesarios para crear uno ya se están reportando internamente en algún lugar. El conjunto de datos más importante, “nuestro seguimiento interno de eventos de comportamientos en el sitio (por ejemplo, las visitas de página de NYT), ya existe en nuestra Google Cloud Platform (GCP”).

Si bien este conjunto de datos puede ayudar a comprender qué historias pueden afectar la suscripción, “es fundamental comprender qué influencias externas conducen a que un visitante llegue a nuestro sitio”.

Casi todos estos datos provienen de socios externos, como Facebook y Google, pero generalmente los utilizan analistas y especialistas en marketing en una UI (interfaz del usuario) aislada.

“Descubrimos que la accesibilidad de los datos era un obstáculo, por lo que nuestro primer paso fue crear un API de cada fuente de datos externa para convertirlas en un almacenamiento en la nube. Estas fuentes de datos incluyen, pero no se limitan a:

Clicks e impresiones
Display fuera del sitio y en el sitio
Impresiones pagadas y propias en Facebook
Impresiones en Twitter, Engagement, Retweets, Respuestas, Me gusta
Descargas de aplicaciones
Fechas de venta
Variables económicas

Después de tener los datos, es necesario incluirlos en un modelo estadístico

“Tener todos estos datos en un almacén central de GCP de forma consistente nos da los datos que necesitamos, pero en diferentes formatos que no se pueden incluir fácilmente en un modelo estadístico. Para eso, confiamos en Python no solo para limpiar y formatear los datos, sino también para ejecutar regresiones complejas a partir de las cuales podemos extraer información”.

“Cuando se preparan para construir un modelo, varios proveedores de datos generalmente preguntan qué datos necesitamos y casi siempre los necesitamos todos. Cuando un modelo encuentra una variable de entrada significativa (o insignificante), necesitamos desglosarla más y analizar qué factor subyacente está impulsando el resultado; y para hacer esto necesitamos todos los metadatos circundantes. Siempre existe la posibilidad de procesar los datos de forma incorrecta o de que falten por completo, por lo que es necesario validarlos”.

Te puede interesar: Seis claves determinantes en el aumento de suscripciones de News Corp

Validación de datos

Según explica Mill en su artículo en Times Open (espacio en el que el periódico cuenta cómo trabaja en cualquier ámbito). “cualquier modelo econométrico es tan fuerte como los insumos recopilados: “Entrada de basura, salida de basura”, como dice el adagio.

El enfoque común en la industria es extraer todas las fuentes de datos, manipular y visualizar los datos y, finalmente, presentarlos a los interesados y expertos para garantizar la calidad de los insumos. Dado que el envío de estos datos a agencias externas puede llevar mucho tiempo a todas las partes involucradas, se pueden eliminar muchas fricciones manteniendo el proceso interno.

Para hacer esto, “introdujimos una infraestructura de informes basada en la nube conectada directamente a nuestro almacén de BigQuery. Esto nos permite tener las entradas que utilizamos para modelar transformadas y canalizadas directamente a nuestros analistas, quienes pueden monitorear la precisión de los datos tan pronto como se ingieren de las API”.

Modelado de datos

A menudo, en ciencia de datos o econometría, la mayor parte del tiempo dedicado a construir un modelo puede estar en la preparación antes de que se lleve a cabo cualquier modelado real. “Hemos logrado reducir el tiempo dedicado al procesamiento de datos utilizando la biblioteca Pandas Python. Pandas tiene un envoltorio previamente escrito para extraer datos de GCP utilizando BigQuery, que permite la toma de datos desde BigQuery a un DataFrame. (Pandas DataFrame es una herramienta poderosa de código abierto con una estructura similar a Excel que nos permite manipular datos de manera eficiente). Podemos migrar datos hacia o desde BigQuery en tan solo tres líneas de código”.

Con un acceso simple a BigQuery, indica Mill, “usamos Python para recorrer múltiples consultas para tomar todos los datos necesarios de tablas separadas en una ubicación. Con los datos en un solo lugar, podemos transformarlos según sea necesario con Pandas. Hay una serie de manipulaciones necesarias necesarias para ejecutar un modelo de mezcla de mercado, como:

Compartiendo todos los datos en intervalos de tiempo consistentes
Creación de índices estacionales.
Creando transformaciones de adstock para medir efectos latentes.
Datos de suavizado

Te puede interesar: Agrupar suscripciones de varios medios propios a buen precio, una de las opciones para seguir creciendo

La mayoría de estas transformaciones ya vienen con funciones preescritas en la biblioteca de pandas para que las manipulaciones sean lo menos complicadas posible ( pivot_tablepara agrupar rápidamente los datos, rolling_tablepara suavizar los datos). “Para cualquier transformación personalizada, como los anuncios, podemos escribir nuestra propia lógica para automatizar el proceso. Si bien todo esto es técnicamente posible en SQL, Python y Pandas simplifican el proceso con una fracción del código. Cuando pensamos en la automatización y en los cambios de modelo rápidos, queremos un código tan pequeño para depurar lo más humanamente posible, y la simple conectividad entre Pandas y BigQuery nos permite elegir qué herramienta puede manipular los datos de manera más eficiente”.

“Siguiendo nuestro proceso de transformación de datos, apunta el artículo del director de Analítica, estamos listos para construir nuestro modelo. Existen múltiples bibliotecas de Python bien adaptadas para el modelado estadístico, pero para un MMM, preferimos los modelos de estadísticas, ya que son más adecuados para la interpretación econométrica tradicional de nuestras variables de entrada”.

Reducir la fricción de un proceso plagado de transferencias de datos es esencial para obtener respuestas rápidamente. Eliminar la dependencia de los proveedores en el modelado alivia la necesidad de enviar datos masivos a agencias externas. El traslado de la información y la propiedad de los datos de las IU individuales a un repositorio central democratiza las entradas necesarias del modelo. Y, por último, un flujo de trabajo programático para automatizar ETL (Extraer, Transformar, Cargar), transformaciones de datos y modelado ahorra tiempo a los analistas de datos en la producción de las perspectivas modeladas necesarias.

“Poseer toda esta información también nos da una vista completa de todo el procesamiento de datos hasta resultados modelados. Tener modelos internos nos permite tener una visión total de las posibles brechas de datos, los supuestos que se incluyen en el modelo y la transparencia total de los resultados modelados para validar y mantener un nivel de integridad estadística”, concluye Mill.

Más información:

Así ha construido el NYT el modelo técnico que les permite medir qué hace que los lectores se suscriban

Gestión de datos

Después de tener los datos, es necesario incluirlos en un modelo estadístico

Validación de datos

Modelado de datos

DEJA UNA RESPUESTA Cancelar respuesta

ÚLTIMOS ARTÍCULOS

El gobierno alemán financia una línea de apoyo para los periodistas afectados por problemas de salud mental

The Washington Post quiere liderar la era de los bots en medios informativos con la Generación Aumentada por Recuperación

Nueva York siente precedente en Estados Unidos al aprobar una ley que subvenciona hasta el 50% del sueldo de periodistas locales

La BBC invertirá 6 millones de libras en IA para mejorar su oferta educativa

Prakash (Google), sobre la IA: “Estamos en los primeros cinco minutos de un partido de fútbol de 90”

Cómo establecer una política clara de uso de la IA en medios: el ejemplo del ICFJ

España se integra en la campaña de la ONU “Verificado por el Clima”

Javier García Pagán, nuevo CEO de WeMass

La SIP alerta de “riesgos crecientes para las libertades de expresión y de prensa”

La Vanguardia amplía a 22 las herramientas de participación para sus suscriptores

LO MÁS LEÍDO

Los 10 temas que más interés generan en los lectores

The Washington Post quiere liderar la era de los bots en medios informativos con la Generación Aumentada por Recuperación

Nueva York siente precedente en Estados Unidos al aprobar una ley que subvenciona hasta el 50% del sueldo de periodistas locales

“Por qué ya no tememos a Google”, la reflexión de Mathias Döpfner diez años después de escribir “Por qué tememos a Google”

Cómo establecer una política clara de uso de la IA en medios: el ejemplo del ICFJ

Los editores centran sus esfuerzos en otras redes y en los canales propios ante las acusadas caídas de tráfico desde Facebook

La Vanguardia amplía a 22 las herramientas de participación para sus suscriptores

La BBC invertirá 6 millones de libras en IA para mejorar su oferta educativa

Sept, el medio que se ha convertido en 10 años en uno de los referentes europeos de “slow journalism”

Javier García Pagán, nuevo CEO de WeMass