Méthodologie

Aucune affirmation sans source ou rationnel

La promesse de NicheScout est une promesse d'auditabilité. Tout ce que la plateforme produit est traçable : la source, l'agent qui l'a interprétée, la version du pipeline, la version du scoring, le poids dans la décision. La couche d'intelligence des signaux de douleur — qui lit les discussions publiques pour cartographier la friction réelle — respecte la même discipline : motifs agrégés, fils d'origine cités, confiance étiquetée par section.

Pipeline de génération

Six phases reproductibles, versionnées (v2.0).

  1. 01

    Cadrage

    Le mot-clé est normalisé, géolocalisé sur le pays cible, et enrichi avec sa langue de recherche dominante. Aucune donnée utilisateur n'est envoyée à des tiers à ce stade.

  2. 02

    Collecte multi-source

    Le pipeline interroge en parallèle : moteurs de recherche (ValueSERP), communautés (Reddit, Hacker News, forums sectoriels), registres publics (INSEE, Eurostat, DGCCRF) et signaux propriétaires (Google Trends, volumes de mots-clés). Chaque source obtient un identifiant persistant.

  3. 03

    Déduplication et qualification

    Les sources collectées sont déduplifiées par URL canonique et hash de contenu, puis classées par niveau de fiabilité (T1 institutionnel, T2 sectoriel, T3 communautaire). Les sources non vérifiables sont marquées et écartées du scoring quantitatif.

  4. 04

    Analyse par agents spécialisés

    Une famille d'agents indépendants produit chaque section : pain-point, concurrence, dimensionnement, monétisation, SEO, GTM, blueprint technique. Chaque affirmation est rattachée à un identifiant de source ou explicitement marquée comme inférence.

  5. 04b

    Intelligence des signaux de douleur

    Une couche dédiée lit les discussions publiques (Reddit, forums sectoriels) en lecture seule, agrège les fils en motifs récurrents (≥ 3 fils, ≥ 2 sources distinctes), et extrait : plaintes répétées, contournements observés, déclencheurs de switch entre concurrents, segments sous-servis, langage réel des utilisateurs. Les pseudonymes sont écartés à l'ingestion ; aucun verbatim n'est reproduit ; chaque motif est lié à ses fils d'origine.

  6. 05

    Scoring déterministe

    Le score composite et les sept sous-scores sont calculés par un moteur en TypeScript — pas par un LLM. Les pondérations sont versionnées (v1.0). Donnez le même rapport au moteur deux fois, vous obtenez le même score.

  7. 06

    Assemblage et validation

    Le rapport est assemblé selon le schéma versionné v2.0 (quatorze sections), validé contre un schéma Zod, persisté avec sa version de pipeline et son décompte de sources. Tout est auditable de bout en bout.

Trois niveaux de fiabilité

Chaque source citée porte un tier explicite. Le scoring quantitatif pondère les sources par leur fiabilité ; les sources qualitatives nourrissent les verbatims et points de douleur.

T1

Institutionnelle

INSEE, Eurostat, DREES, OMS, registres publics, autorités de tutelle. Poids maximal dans le scoring quantitatif.

T2

Sectorielle

Études de cabinets reconnus (McKinsey, Bain, Xerfi), associations professionnelles, presse économique de référence (Les Échos, Financial Times).

T3

Communautaire (discussions publiques)

Forums spécialisés, threads Reddit, discussions publiques. Lues en lecture seule, agrégées en motifs récurrents (≥ 3 fils, ≥ 2 sources distinctes), liées à leurs fils d'origine. Pondération réduite dans le quantitatif ; centrale pour l'intelligence des signaux de douleur (plaintes répétées, contournements, déclencheurs de switch).

Couche dédiée

Intelligence des signaux de douleur

Les données de dimensionnement répondent à quelle est la taille du marché. Elles ne répondent pas à la douleur est-elle réelle, récurrente, sévère, et non adressée par les solutions existantes. NicheScout intègre une couche dédiée qui lit les discussions publiques pour cartographier précisément cette dimension qualitative.

Ce qui est extrait

  • · Motifs de plainte récurrents (clusters ≥ 3 fils, ≥ 2 sources)
  • · Charge de contournement (workarounds manuels, tableurs, hacks)
  • · Déclencheurs de switch (passé de X à Y, raisons)
  • · Frustration concurrent par concurrent
  • · Segments sous-servis (indépendants, petites équipes, agences, grands comptes)
  • · Langage exact utilisé pour décrire le problème

Ce qui n'est jamais fait

  • · Aucun message publié ni envoyé sur Reddit
  • · Aucun vote, aucun suivi, aucune interaction sociale
  • · Aucune extraction de pseudonymes (écartés à l'ingestion)
  • · Aucun verbatim reproduit ; seules les paraphrases ≤ 10 mots sont surfacées
  • · Aucun usage de prospection ou d'outreach
  • · Aucun scraping hors API officielle

Confiance honnête, dégradation gracieuse

La section porte un niveau de confiance explicite : haute (≥ 4 motifs forts sur ≥ 3 sources), moyenne, basse, ou indisponible si le signal est insuffisant. Quand la couche communautaire est indisponible, le rapport ne fabrique pas de contenu : il l'indique et continue avec les autres preuves. Les motifs identifiés sont des inférences explicites — clairement étiquetées dans le rapport, distinguées des affirmations sourcées directement.

Moteur de scoring v1.0

Le score composite est un moteur déterministe en TypeScript. Pas un LLM. Mêmes données en entrée → même score en sortie. Le code est versionné, les pondérations aussi. La somme des poids est égale à 1,00.

DimensionPoidsComposantes principales
Signal de demande0.20Volumes de recherche, croissance YoY, signaux communautaires (mentions, fils actifs), tendances sectorielles.
Niveau de concurrence0.15Densité concurrentielle, fragmentation, présence d'acteurs dominants, zones de positionnement non couvertes.
Potentiel de monétisation0.20ARPU réaliste, modèles de revenu testables, pouvoir d'achat de la cible, sensibilité au prix.
Croissance du marché0.10CAGR sectoriel sur 3-5 ans, démographie sous-jacente, tendances structurelles.
Faisabilité d'entrée0.15Barrières réglementaires, capital initial requis, prérequis techniques, exigences de partenariat.
Timing0.10Maturité de l'adoption, signaux de changement de marché, fenêtre de tir.
Accessibilité de l'audience0.10Canaux d'acquisition disponibles, coût d'acquisition modélisé, friction de découverte.
Total1.00

Politique d'inférence

Quand une affirmation ne peut pas être rattachée à une source identifiable — par exemple une estimation de marché construite à partir de plusieurs signaux croisés — elle est explicitement marquée comme inférence dans le rapport. Les inférences sont visibles, pas masquées.

Cette discipline est ce qui distingue NicheScout d'une sortie LLM générique : vous savez toujours où s'arrête le fait sourcé et où commence le raisonnement. C'est la condition pour défendre un livrable devant un comité, un client, ou un investisseur.

Conformité et hébergement

  • Données hébergées en Union européenne
    OVH France · AWS Stockholm. Aucune donnée transférée hors UE.
  • RGPD complet
    Consentement explicite, export sur demande, effacement complet sous 30 jours.
  • Aucun usage des données pour entraînement
    Les fournisseurs IA utilisés sont configurés sans rétention.
  • Audit trail complet
    Chaque action sensible (auth, billing, accès admin) est loguée avec horodatage et IP hashée.
  • Reddit en lecture seule, sans PII
    L'intégration Reddit n'a pas de surface d'écriture (aucun post, message, vote). Les pseudonymes sont écartés à l'ingestion ; aucun verbatim n'est reproduit.

Voir la méthodologie en action

Le rapport exemple montre concrètement ce que produit le pipeline : sections, scoring, sources, inférences marquées.

NicheScout — Validez votre prochaine idée de niche