La promesse de NicheScout est une promesse d'auditabilité. Tout ce que la plateforme produit est traçable : la source, l'agent qui l'a interprétée, la version du pipeline, la version du scoring, le poids dans la décision. La couche d'intelligence des signaux de douleur — qui lit les discussions publiques pour cartographier la friction réelle — respecte la même discipline : motifs agrégés, fils d'origine cités, confiance étiquetée par section.
Six phases reproductibles, versionnées (v2.0).
Le mot-clé est normalisé, géolocalisé sur le pays cible, et enrichi avec sa langue de recherche dominante. Aucune donnée utilisateur n'est envoyée à des tiers à ce stade.
Le pipeline interroge en parallèle : moteurs de recherche (ValueSERP), communautés (Reddit, Hacker News, forums sectoriels), registres publics (INSEE, Eurostat, DGCCRF) et signaux propriétaires (Google Trends, volumes de mots-clés). Chaque source obtient un identifiant persistant.
Les sources collectées sont déduplifiées par URL canonique et hash de contenu, puis classées par niveau de fiabilité (T1 institutionnel, T2 sectoriel, T3 communautaire). Les sources non vérifiables sont marquées et écartées du scoring quantitatif.
Une famille d'agents indépendants produit chaque section : pain-point, concurrence, dimensionnement, monétisation, SEO, GTM, blueprint technique. Chaque affirmation est rattachée à un identifiant de source ou explicitement marquée comme inférence.
Une couche dédiée lit les discussions publiques (Reddit, forums sectoriels) en lecture seule, agrège les fils en motifs récurrents (≥ 3 fils, ≥ 2 sources distinctes), et extrait : plaintes répétées, contournements observés, déclencheurs de switch entre concurrents, segments sous-servis, langage réel des utilisateurs. Les pseudonymes sont écartés à l'ingestion ; aucun verbatim n'est reproduit ; chaque motif est lié à ses fils d'origine.
Le score composite et les sept sous-scores sont calculés par un moteur en TypeScript — pas par un LLM. Les pondérations sont versionnées (v1.0). Donnez le même rapport au moteur deux fois, vous obtenez le même score.
Le rapport est assemblé selon le schéma versionné v2.0 (quatorze sections), validé contre un schéma Zod, persisté avec sa version de pipeline et son décompte de sources. Tout est auditable de bout en bout.
Chaque source citée porte un tier explicite. Le scoring quantitatif pondère les sources par leur fiabilité ; les sources qualitatives nourrissent les verbatims et points de douleur.
INSEE, Eurostat, DREES, OMS, registres publics, autorités de tutelle. Poids maximal dans le scoring quantitatif.
Études de cabinets reconnus (McKinsey, Bain, Xerfi), associations professionnelles, presse économique de référence (Les Échos, Financial Times).
Forums spécialisés, threads Reddit, discussions publiques. Lues en lecture seule, agrégées en motifs récurrents (≥ 3 fils, ≥ 2 sources distinctes), liées à leurs fils d'origine. Pondération réduite dans le quantitatif ; centrale pour l'intelligence des signaux de douleur (plaintes répétées, contournements, déclencheurs de switch).
Les données de dimensionnement répondent à quelle est la taille du marché. Elles ne répondent pas à la douleur est-elle réelle, récurrente, sévère, et non adressée par les solutions existantes. NicheScout intègre une couche dédiée qui lit les discussions publiques pour cartographier précisément cette dimension qualitative.
La section porte un niveau de confiance explicite : haute (≥ 4 motifs forts sur ≥ 3 sources), moyenne, basse, ou indisponible si le signal est insuffisant. Quand la couche communautaire est indisponible, le rapport ne fabrique pas de contenu : il l'indique et continue avec les autres preuves. Les motifs identifiés sont des inférences explicites — clairement étiquetées dans le rapport, distinguées des affirmations sourcées directement.
Le score composite est un moteur déterministe en TypeScript. Pas un LLM. Mêmes données en entrée → même score en sortie. Le code est versionné, les pondérations aussi. La somme des poids est égale à 1,00.
| Dimension | Poids | Composantes principales |
|---|---|---|
| Signal de demande | 0.20 | Volumes de recherche, croissance YoY, signaux communautaires (mentions, fils actifs), tendances sectorielles. |
| Niveau de concurrence | 0.15 | Densité concurrentielle, fragmentation, présence d'acteurs dominants, zones de positionnement non couvertes. |
| Potentiel de monétisation | 0.20 | ARPU réaliste, modèles de revenu testables, pouvoir d'achat de la cible, sensibilité au prix. |
| Croissance du marché | 0.10 | CAGR sectoriel sur 3-5 ans, démographie sous-jacente, tendances structurelles. |
| Faisabilité d'entrée | 0.15 | Barrières réglementaires, capital initial requis, prérequis techniques, exigences de partenariat. |
| Timing | 0.10 | Maturité de l'adoption, signaux de changement de marché, fenêtre de tir. |
| Accessibilité de l'audience | 0.10 | Canaux d'acquisition disponibles, coût d'acquisition modélisé, friction de découverte. |
| Total | 1.00 |
Quand une affirmation ne peut pas être rattachée à une source identifiable — par exemple une estimation de marché construite à partir de plusieurs signaux croisés — elle est explicitement marquée comme inférence dans le rapport. Les inférences sont visibles, pas masquées.
Cette discipline est ce qui distingue NicheScout d'une sortie LLM générique : vous savez toujours où s'arrête le fait sourcé et où commence le raisonnement. C'est la condition pour défendre un livrable devant un comité, un client, ou un investisseur.
Le rapport exemple montre concrètement ce que produit le pipeline : sections, scoring, sources, inférences marquées.