El Espacio de Conocimiento como Objeto Geométrico
Cada documento científico se representa como un punto en un espacio métrico inducido por embeddings semánticos multilingües (paraphrase-multilingual-MiniLM-L12-v2, ℝ³⁸⁴).
δ(dᵢ,dⱼ) = 1 − [Φ(dᵢ)·Φ(dⱼ)] / [‖Φ(dᵢ)‖‖Φ(dⱼ)‖]
// distancia coseno entre documentos
Las líneas de investigación se definen como regiones de alta densidad semántica con cohesión interna, persistencia temporal ≥ τ y separabilidad bajo HDBSCAN.
Pipeline Analítico
Crossref API
multilingual
clustering
frontera F(Lᵢ)
semántica Cⱼ
Parámetros HDBSCAN: min_cluster_size=8, min_samples=2, method=leaf. El 89.3% del corpus es clasificado como ruido—documentos heterogéneos sin cohesión semántica suficiente.
Ciencia Básica y de Frontera
Ciencia básica se operacionaliza como propiedad estructural: alta centralidad de intermediación, persistencia longitudinal ≥ τbas = 4 años, abstracción semántica y capacidad generativa.
∂Cᵢ = {x ∈ Cᵢ | ∃ε: Bε(x)∩Cⱼ≠∅, j≠i}
F(Cᵢ) = |∂Cᵢ| / |Cᵢ| ∈ [0,1]
Frontera: F(Cᵢ) ≥ 0.90. A k=10, la media es F̄=0.738; 15 de 33 líneas alcanzan F=1.00. Los resultados son sensibles al parámetro k (0.25 a k=5 → 0.94 a k=20).
Líneas con Mayor Actividad en Frontera
Distribución de Trayectorias de Investigación
Umbral coherencia C* = 0.30 · Umbral dispersión σ²* = 0.10
128 proyectos con texto de protocolo recuperable
Concentrado (77 proy.)
Diverso (27 proy.)
Concentrado (20 proy.)
Diverso (4 proy.)
Concentración Estructural del Financiamiento
De 11,640 autores identificados, solo el 4.0% participó en más de un proyecto. La baja entropía confirma alta concentración: la producción científica del instrumento emerge en el nivel de artículo, no de colaboración estructural.
La predominancia de trayectorias desplazadas-concentradas (60.2%) sugiere redirección temática legítima durante el ciclo de vida del proyecto, más que dispersión o incumplimiento del protocolo.
⟶ El marco es transferible a cualquier instrumento de financiamiento con corpus textual asociado.