Extraer datos de Bluesky con AT Protocol API

Bluesky Starter Packs: cómo extraer listas de comunidades profesionales con la API pública del AT Protocol

Hay una fuente de datos profesionales que casi nadie está usando todavía: los Starter Packs de Bluesky. Son listas curadas de perfiles organizados por nicho — investigadores de IA, founders en Europa, desarrolladores de Python — y según datos publicados en EurekAlert, representaron el 43% de todos los follows durante el crecimiento explosivo de la plataforma en 2024. Eso no es un detalle menor.

El problema es que Bluesky no tiene un botón de exportar. No hay CSV, no hay endpoint que diga "dame todos los miembros de este pack". Solo hay scroll infinito en la interfaz web y una API pública que, si sabes cómo encadenarla, te da exactamente lo que necesitas. En este artículo analizamos cómo funciona ese proceso, qué datos puedes obtener y para qué sirve esto en proyectos reales.

Este análisis está basado en un artículo técnico publicado en Dev.to por el equipo de Devil Scrapes, que documenta con precisión el comportamiento del AT Protocol y los patrones de extracción necesarios para trabajar con esta fuente de datos.

¿Qué es un Starter Pack y por qué importa como fuente de datos?

Un Starter Pack en Bluesky es un registro almacenado en el AT Protocol — el protocolo abierto y federado que sustenta la plataforma. Cualquier usuario puede crear uno, y Bluesky los muestra en la pantalla de onboarding y en los feeds de descubrimiento. Cada pack contiene un título, una descripción opcional y una lista de DIDs (identificadores de cuenta descentralizados).

Lo que hace especial a estos packs desde el punto de vista de datos es su origen: fueron creados por curadores humanos que ya hicieron el trabajo de clasificar perfiles por relevancia temática. Cuando alguien publica "ML Researchers on Bluesky", no está generando ruido algorítmico — está publicando una lista de señal alta, verificada manualmente, dentro de un nicho profesional específico.

Para un desarrollador o analista, eso es oro. La pregunta es cómo acceder a esos datos de forma programática, y ahí es donde la cosa se pone interesante.

La API existe, pero no hace lo que uno esperaría

El AT Protocol tiene endpoints públicos en https://public.api.bsky.app/xrpc/ que no requieren autenticación. Eso es inusual y valioso. Pero la API no expone búsqueda por keyword ni exportación masiva de un pack en una sola llamada.

Para obtener todos los miembros de un Starter Pack, el flujo real es el siguiente: primero se llama a app.bsky.graph.getStarterPack para obtener el AT URI de la lista embebida. Luego se llama a app.bsky.graph.getList con ese URI, que devuelve una página de miembros más un cursor de paginación. Ese loop continúa hasta que la respuesta ya no incluye cursor — en packs grandes, eso puede implicar una docena de llamadas secuenciales que deben completarse y reensamblarse en orden.

A eso se suma la estructura anidada del objeto: el nombre y la descripción del pack no están en el nivel raíz, sino dentro de un sub-objeto record. Un parser ingenuo que lea pack["name"] retorna None siempre. El path correcto es pack["record"]["name"]. Y el AT Protocol no publica sus límites de rate, pero sí los aplica — por lo que se necesita lógica de reintentos con backoff exponencial para que el proceso sea confiable en producción.

El artículo técnico de referencia documenta un Actor en Apify que resuelve todo esto: paginación, reintentos, normalización de URLs y validación de cada fila con Pydantic antes de escribirla al dataset. El costo: $0.002 por fila emitida, lo que equivale a aproximadamente $2.05 por cada 1,000 miembros extraídos.

¿Cómo aplica esto en proyectos de desarrollo en Perú y LATAM?

Desde la perspectiva de desarrollo de software, este caso ilustra algo que vemos frecuentemente en proyectos de automatización e inteligencia de datos: la API pública existe, pero el valor real está en saber orquestarla correctamente. No en una sola llamada, sino en una cadena de llamadas con manejo de errores, validación de esquema y control de costos.

Los casos de uso más concretos para equipos técnicos en la región incluyen investigación de comunidades académicas o profesionales por nicho, construcción de pipelines de prospección B2B con datos de alta señal en lugar de bases de datos frías, inteligencia competitiva para rastrear qué cuentas están siendo recomendadas por curadores influyentes, y análisis de grafos sociales para estudios de adopción tecnológica o comportamiento de comunidades digitales.

En todos estos casos, el patrón es el mismo: una fuente de datos pública, un protocolo abierto, y la diferencia entre un script que funciona una vez y un pipeline confiable que corre en producción sin supervisión.

¿Cómo aplica esto en tu empresa?

Si tu equipo está construyendo flujos de datos, herramientas de prospección o sistemas de inteligencia competitiva, hay tres preguntas concretas que vale la pena hacerse antes de empezar a escribir código:

  • ¿La fuente de datos tiene API pública? Si el protocolo es abierto (como el AT Protocol de Bluesky), muchas veces no necesitas scraping agresivo — solo necesitas entender bien la documentación del lexicon.
  • ¿Cómo manejas la paginación y los errores en producción? Un script que funciona en local con 50 filas puede fallar silenciosamente con 5,000. La validación de esquema con herramientas como Pydantic no es opcional si el dato va a alimentar otro sistema.
  • ¿Cuánto cuesta el dato vs. cuánto vale? $2.05 por 1,000 perfiles curados por humanos en un nicho específico es un costo marginal. La pregunta correcta no es si es barato, sino si el pipeline que lo consume está listo para aprovecharlo.

En Consultoría-Ti trabajamos con equipos que necesitan automatizar flujos de datos, integrar fuentes externas con sus sistemas internos (Odoo, CRMs, dashboards) y construir pipelines confiables con herramientas como n8n, Python y APIs REST. Si tu equipo está explorando este tipo de integraciones, podemos ayudarte a diseñar la arquitectura correcta desde el inicio.

Conclusión

Los Starter Packs de Bluesky son un ejemplo de algo que ocurre cada vez más en el ecosistema de datos: fuentes de alta señal, abiertas por diseño, pero que requieren ingeniería real para ser útiles. El AT Protocol es público, la API existe, y el costo de extracción es mínimo. Lo que marca la diferencia es saber encadenar los endpoints correctamente, validar los datos y construir un pipeline que no falle cuando más lo necesitas.

Si estás evaluando este tipo de integraciones para tu empresa o proyecto, conversemos. En Consultoría-Ti podemos ayudarte a convertir fuentes de datos públicas en activos concretos para tu negocio.

Fuentes y Referencias

Dev.to — Bluesky Starter Pack Scraper: export any community list for $2.05/1K (Devil Scrapes)



✨ Contenido generado con ContentFlow — Consultoría-Ti

Compartir
Etiquetas
SQL y APIs con Node.js para developers frontend