Les répondants synthétiques, ou synthetic respondents, désignent des agents artificiels capables de simuler des réponses humaines à des questionnaires, des entretiens ou des situations expérimentales. Si la simulation d’individus existe depuis longtemps dans certaines disciplines, elle connaît aujourd’hui un regain d’intérêt avec l’essor des grands modèles de langage et leur intégration dans des environnements comme Python, qui permettent de générer et d’analyser rapidement de larges volumes de données.
Depuis quelques années, la recherche s’attache à évaluer la valeur réelle de ces répondants synthétiques. L’enjeu n’est plus seulement de produire des réponses plausibles, mais de comprendre dans quelle mesure ces agents peuvent reproduire des comportements, des opinions ou des dynamiques observées chez des individus réels.
Des travaux récents montrent que les modèles de langage sont capables de générer des distributions de réponses proches de celles observées dans de grandes enquêtes en sciences sociales. Les tendances moyennes et les relations globales entre variables sont généralement bien reproduites. En revanche, la variabilité individuelle est plus limitée : les réponses extrêmes, les incohérences ou les trajectoires atypiques sont moins fréquentes que dans les données humaines. Les répondants synthétiques apparaissent ainsi comme de bons représentants de comportements « moyens », mais peinent à restituer toute la diversité des expériences humaines.
D’autres recherches ont exploré la capacité des modèles à simuler des comportements décisionnels simples, comme des dilemmes sociaux ou des jeux de coopération. Là encore, les décisions produites sont cohérentes et interprétables, souvent alignées sur des normes sociales implicites telles que l’équité ou la coopération. Ces résultats suggèrent un fort potentiel pour explorer des mécanismes généraux, tout en invitant à la prudence lorsqu’il s’agit d’étudier des comportements marginaux ou atypiques. Plus récemment, une équipe de Stanford et Google a franchi une étape supplémentaire en combinant données humaines empiriques et agents génératifs. À partir d’entretiens et d’enquêtes, il devient possible de construire des profils individuels détaillés, puis de simuler des populations entières d’agents artificiels. Ces approches permettent d’observer des dynamiques collectives et de tester des scénarios complexes, difficiles ou coûteux à étudier directement sur le terrain. Elles soulignent toutefois que les agents synthétiques restent des outils de simulation, et non des substituts aux enquêtes auprès de populations humaines.
En marketing comme dans les autres sciences sociales, l’enjeu ne sera pas de remplacer les répondants humains, mais d’intégrer les répondants synthétiques comme des outils complémentaires. Ils peuvent s’avérer particulièrement utiles pour des études pilotes, des pré-tests, l’exploration rapide de scénarios ou des études ne pouvant être administrées avec des humains pour des raisons éthiques. À ce stade, la prudence reste de mise, mais ces évolutions interrogent déjà les pratiques traditionnelles de collecte de données et les difficultés croissantes à obtenir des réponses de qualité dans les enquêtes.
Références :
Argyle, Lisa P., Ethan C. Busby, Nancy Fulda, Joshua Gubler, Christopher Rytting, and David Wingate (2023), “Out of One, Many: Using Language Models to Simulate Human Samples,” Political Analysis, 31(3), 337–51.
De Winter, Joost C.F., Tom Driessen, and Dimitra Dodou (2024), “The Use of ChatGPT for Personality Research: Administering Questionnaires Using Generated Personas,” Personality and Individual Differences, 228, 112729.
Horton, John J. (2023), “Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?,” http://arxiv.org/abs/2301.07543.
Park, Joon Sung, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, and Michael S. Bernstein (2024), “Generative Agent Simulations of 1,000 People,” http://arxiv.org/abs/2411.10109.
Sarstedt, Marko, Susanne J. Adler, Lea Rau, and Bernd Schmitt (2024), “Using Large Language Models to Generate Silicon Samples in Consumer and Marketing Research: Challenges, Opportunities, and Guidelines,” Psychology & Marketing, 41(6), 1254–70.