{"id":549,"date":"2018-07-23T14:12:08","date_gmt":"2018-07-23T13:12:08","guid":{"rendered":"http:\/\/kudueconomics.eu\/?p=549"},"modified":"2018-09-19T10:59:09","modified_gmt":"2018-09-19T09:59:09","slug":"prenez-garde-au-biais-qui-vous-guette","status":"publish","type":"post","link":"https:\/\/kudueconomics.eu\/fr\/prenez-garde-au-biais-qui-vous-guette","title":{"rendered":"Prenez garde au biais qui vous guette !","raw":"Prenez garde au biais qui vous guette !"},"content":{"rendered":"<p style=\"text-align: justify;\"><span style=\"font-size: 10pt;\"><a href=\"https:\/\/kudueconomics.eu\/beware-of-the-vicious-data-mining-bias\"><em>Read this post in english<\/em><\/a><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span style=\"color: #993300;\"><strong><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\">L&rsquo;analyse de grandes quantit\u00e9s de donn\u00e9es peut vous conduire \u00e0 une grave erreur. <\/span><\/strong><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><strong><span class=\"\" style=\"color: #993300;\">Voici pourquoi, et comment vous en pr\u00e9server.<\/span><span class=\"\"><br \/>\n<\/span><\/strong><\/span><\/span><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-592\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-300x300.jpg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-300x300.jpg 300w, https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-150x150.jpg 150w, https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-768x768.jpg 768w, https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-1024x1024.jpg 1024w, https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-1320x1320.jpg 1320w, https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large.jpg 1600w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/p>\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Dans mon r\u00e9cent \u00ab\u00a0quiz\u00a0\u00bb parlant de technologie, j&rsquo;ai mentionn\u00e9 que d\u00e9nicher des donn\u00e9es exploitables enfouies sous des montagnes de donn\u00e9es inutiles, cette activit\u00e9 que l&rsquo;on nomme dans la jargon \u00ab\u00a0data-mining\u00a0\u00bb, constituait un parfait domaine d&rsquo;application pour l&rsquo;intelligence artificielle et en particulier pour les r\u00e9seaux neuronaux.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><span style=\"text-decoration: underline;\">Mais<\/span> j&rsquo;ai \u00e9galement mentionn\u00e9 que <strong>cette activit\u00e9 pouvait conduire \u00e0 une \u00e9norme erreur<\/strong>, \u00e0 un biais logique dont nous devons tous nous m\u00e9fier.<\/span> <span class=\"\">Ce biais, que l&rsquo;on peut appeler sans surprise \u00ab<em>le data-mining bias<\/em>\u00bb (pas de traduction fran\u00e7aise correcte), est ce dont je souhaite parler aujourd&rsquo;hui.<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Parlons donc de cet effrayant biais !<\/span><\/p>\n<p><!--more--><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Celui-ci, de part son nom anglais barbare et son\u00a0 lien s\u00e9mantique avec l&rsquo;informatique <strong>peut sembler quelque chose de tr\u00e8s technique et qui ne peut donc concerner que les geeks. Mais ce n&rsquo;est pas le cas du tout!<\/strong> C&rsquo;est une erreur tr\u00e8s commune \u00e0 laquelle tout le monde est confront\u00e9 r\u00e9guli\u00e8rement. Vous, moi, tout le monde.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Rappelons n\u00e9anmoins que le <strong>processus d&rsquo;exploration syst\u00e9matique de grandes quantit\u00e9s de donn\u00e9es reste une m\u00e9thode parfaitement valid<\/strong>e qui consiste \u00e0 extraire de ces donn\u00e9es, \u00e0 priori sans int\u00e9r\u00eat, des corr\u00e9lations, des s\u00e9ries temporelles, des tendances, des similitudes&#8230; \u00ab\u00a0Bien pratiqu\u00e9\u00a0\u00bb, avec prudence et rigueur, cette m\u00e9thode peut en effet conduire \u00e0 des d\u00e9couvertes utiles.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Mais elle peut aussi conduire \u00e0 une grosse erreur<\/strong>. Voici pourquoi.<\/span><\/p>\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 14pt; color: #993300;\" tabindex=\"-1\">Mais d&rsquo;abord, illustrons-la.<\/span><\/h2>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Voici donc quelques e<span class=\"\">xemples concrets pour illustrer ce probl\u00e8me et comprendre pourquoi vous devriez lire la fin de cet article !<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong><span class=\"\">Premier exemple: <\/span>le sensationnalisme journalistique<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">Les journalistes ont besoin de nous faire peur, ils ont besoin de nous faire croire tous les jours que quelque chose m\u00e9rite d&rsquo;\u00eatre imprim\u00e9.<\/span> Parfois, c&rsquo;est vrai, mais parfois ce n&rsquo;est pas vrai du tout.<\/span><\/p>\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Et cela se remarque particuli\u00e8rement lorsqu&rsquo;ils relatent, \u00e0 titre d&rsquo;exemple parmi tant d&rsquo;autres, des <strong>conditions m\u00e9t\u00e9orologiques \u00abextr\u00eames\u00bb<\/strong>.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">C&rsquo;est en effet un sujet dans lequel ils sont tr\u00e8s souvent les victimes plus ou moins consentantes du biais tant redout\u00e9.<\/span> <span class=\"\">Pour faire les gros titres, <strong>ils creusent dans l&rsquo;histoire ou la g\u00e9ographie jusqu&rsquo;\u00e0 ce qu&rsquo;ils trouvent quelque chose<\/strong> \u00e0 comparer avec les conditions m\u00e9t\u00e9orologique actuelles et nous effrayer de la sorte : \u00ab\u00a0Nous vivons un moment historique de froid intense et dangereux\u00a0\u00bb.<\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span class=\"\"> La preuve: \u00ab\u00a0il n&rsquo;a jamais fait aussi<\/span><span class=\"\"> froid dans ce d\u00e9partement un 17 novembre depuis 23 ans. Nous sommes tous condamn\u00e9s!\u00a0\u00bb.<\/span><\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span title=\"This is &quot;data-mining bias &quot; 101. I you are a journalist stop doing that.\">Voil\u00e0 un illustration parfaite du biais de \u00ab\u00a0<em>data-mining<\/em>\u00ab\u00a0. Si vous \u00eates journaliste arr\u00eater de faire cela s&rsquo;il vous plait. <\/span><span title=\"Stop scraping historical data to find anything that might make present spectacular when it is really not.\"><strong>Arr\u00eatez de creuser les donn\u00e9es historiques ou g\u00e9ographiques jusqu&rsquo;\u00e0 trouver quelque chose qui pourrait rendre spectaculaire ce qui ne l&rsquo;est pas<\/strong>. Il fait froid en hiver et chaud en \u00e9t\u00e9<\/span><span title=\"Extreme weather happens, it is normal.\">, c&rsquo;est normal. <\/span><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span title=\"It might indeed happen more often than normal recently due to global warming, true, but a single event is not enough to prove anything about it.\">Bien s\u00fbr il est clair que cela se produit plus souvent que la normale en raison du changement climatique, c&rsquo;est vrai, mais un seul \u00e9v\u00e9nement ne suffit pas \u00e0 prouver quoi que ce soit \u00e0 ce sujet, et alimenter la peur \u00e0 ce sujet n&rsquo;est pas sain.<\/span><\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"And this is of course not limited to weather reports: crime rates growing, bloated immigration numbers, number of shark attacks... Anything that might scare the public is potentially subject to the bias. \"><strong>Et ceci n&rsquo;est bien s\u00fbr pas limit\u00e9 aux bulletins m\u00e9t\u00e9orologiques.<\/strong> Cette erreur se retrouve sur d&rsquo;autres sujets comme la croissance des taux de petite d\u00e9linquance dans des quartiers \u00e9troits (\u00ab\u00a0significatifs\u00a0\u00bb d&rsquo;une hausse g\u00e9n\u00e9rale du crime), des chiffres d&rsquo;immigration depuis un pays particulier et sur une p\u00e9riode courte, nombre d&rsquo;attaques de requins sur une plage au plus haut depuis 20 ans&#8230; Tout ce qui peut effrayer le public par un chiffre cl\u00e9 est potentiellement sujet au biais.<\/span><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Deuxi\u00e8me exemple: corr\u00e9lations m\u00e9dicales \u00e9tranges<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"We can often hear about &quot;medical studies&quot; that &quot;prove&quot; that consuming a certain product give you a high correlation of dying in horrible pain or at the contrary to get younger and even more handsome.\">On entend souvent parler d&rsquo;\u00ab\u00e9tudes m\u00e9dicales\u00bb qui \u00abprouvent\u00bb que consommer un certain produit vous donne une forte chance de mourir dans d&rsquo;horribles souffrances ou au contraire de devenir plus jeune et encore plus beau. <\/span><span title=\"They always seem very surprising, even weird relations that are found by an obscure research team on very specific subsets of data. \">Ces \u00e9tudes, toujours tr\u00e8s surprenantes, proviennent parfois de \u00ab\u00a0chercheurs am\u00e9ricains\u00a0\u00bb (les meilleurs !), et <strong>exposent des relations \u00e9tranges sur des sous-ensembles de donn\u00e9es tr\u00e8s sp\u00e9cifiques<\/strong>.<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"To be perfectly honest, as I am not being naive here, most of those studies are actually lobby financed of course, and while they might actually find data that &quot;prove&quot; what they want to prove, they are dishonest as they know that this does\">Pour \u00eatre tout \u00e0 fait honn\u00eate, car je ne suis pas compl\u00e8tement na\u00eff, la plupart de ces \u00e9tudes sont financ\u00e9es par des <em>lobbys<\/em> et bien qu&rsquo;elles puissent effectivement trouver des donn\u00e9es qui \u00abprouvent\u00bb ce qu&rsquo;elles veulent prouver, elles sont malhonn\u00eates car elles savent que cela <\/span><span title=\"not prove much and hide it. \">ne prouve pas grand chose et se gardent bien de vous le dire.<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"Here is a textbook example of this : how coffee can make you live longer !\">Voici un exemple typique de ceci: <a href=\"https:\/\/edition.cnn.com\/2017\/07\/10\/health\/coffee-leads-to-longer-life-studies-reaffirm\/index.html\">comment le caf\u00e9 peut vous faire vivre plus longtemps!<\/a><\/span> ( en anglais ).<\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">En voici un autre: il y a quelques jours, ma femme a essay\u00e9 de me convaincre que je devais arr\u00eater ma consommation d&rsquo;une petite bi\u00e8re en rentrant le soir avant le diner. Mais ce qu&rsquo;elle a trouv\u00e9 en premier lien sur Google ne lui a pas du tout plu puisqu&rsquo;elle est tomb\u00e9e sur \u00e0 une campagne financ\u00e9e par un groupement de brasseurs relatant une \u00e9tude qui \u00abprouvait\u00bb que la bi\u00e8re \u00e9tait bonne pour la sant\u00e9&#8230; ceci en suivant l&rsquo;am\u00e9lioration d&rsquo;une <strong>caract\u00e9ristique m\u00e9dicale bien particuli\u00e8re, dans un groupe ethnique bien particulier et sur une p\u00e9riode bien particuli\u00e8re<\/strong>&#8230;<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">J&rsquo;ai l\u00e2chement, avec hypocrisie, essay\u00e9 d&rsquo;utiliser cette \u00ab\u00a0\u00e9tude\u00a0\u00bb pour valider mon vice, mais elle n&rsquo;a pas \u00e9t\u00e9 dupe. Elle a naturellement et intuitivement d\u00e9busqu\u00e9 le biais de \u00ab\u00a0<em>data-mining<\/em>\u00a0\u00bb qui n&rsquo;\u00e9tait pas si subtilement cach\u00e9 dans les r\u00e9sultats de l&rsquo;\u00e9tude.<strong> Je n&rsquo;ai plus le droit \u00e0 ma bi\u00e8re du soir.<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><strong>Observez comment ces \u00e9tudes se limitent \u00e0 des \u00e9chantillons tr\u00e8s sp\u00e9cifiques<\/strong>&#8230; c&rsquo;est ainsi que vous pouvez d\u00e9tecter ce biais, volontaire ou non.<\/span> E<span class=\"\">n limitant les \u00e9chantillons et en les s\u00e9parant en sous-ensembles se recoupant selon de nombreux crit\u00e8res, <strong>vous cr\u00e9er de nombreuses \u00ab\u00a0observations\u00a0\u00bb diff\u00e9rentes sur les m\u00eames donn\u00e9es<\/strong> et vous avez alors une tr\u00e8s bonne probabilit\u00e9 de trouver ce que vous voulez trouver.<br \/>\n<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">En faisant le tour d&rsquo;une droite dans l&rsquo;espace il y un moment ou vous pourrez dire que vu sous cet angle elle ressemble \u00e0 un point. Cela n&rsquo;en fera pas un point pour autant !<\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><strong>Troisi\u00e8me exemple: le test historique de strat\u00e9gie d&rsquo;investissement ou \u00ab\u00a0backtesting\u00a0\u00bb<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Souvent, en essayant de concevoir une strat\u00e9gie d&rsquo;investissement, les analystes financiers utilisent les donn\u00e9es de march\u00e9 pass\u00e9es, que ce soit des donn\u00e9es de prix ou fondamentales, et creusent ces donn\u00e9es dans l&rsquo;espoir de trouver la <strong>relation d&rsquo;investissement la plus c\u00e9l\u00e8bre au monde<\/strong>:<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>\u00ab\u00a0Si ceci se produit en un instant N, alors le prix de cette action sera \u00e0 la hausse en N + 1, et je serais incroyablement riche \u00e0 l&rsquo;instant N + 2.\u00a0\u00bb<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Et ils trouvent toujours une telle relation. Toujours. Sur le papier. <strong>Ils recherchent tous la martingale de l&rsquo;investissement<\/strong> (ne perdez pas votre temps et votre argent cette relation n&rsquo;existe pas, l&rsquo;investissement est difficile, ne devient jamais plus facile et exige beaucoup de travail et de patience).<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">Mais quand ils d\u00e9cident de tester cela dans la vraie vie (et je dois avouer que je l&rsquo;ai fait!), cela ne fonctionne pas et ils perdent de l&rsquo;argent (et j&rsquo;en ai perdu, mais c&rsquo;est ainsi qu&rsquo;on apprend sur les march\u00e9s).<\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><\/span><\/span><\/p>\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span style=\"font-size: 14pt; color: #993300;\">Tr\u00e8s bien tout \u00e7\u00e0, mais au final c&rsquo;est quoi ce biais ?<\/span><br \/>\n<\/span><\/h2>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><strong>La m\u00e9thode statistique dit de \u00ab\u00a0data-mining\u00a0\u00bb<\/strong> consiste \u00e0 traiter automatiquement d&rsquo;\u00e9normes quantit\u00e9s de donn\u00e9es afin de d\u00e9nicher des informations utiles et <strong>statistiquement significatives<\/strong> (ce qui est une notion math\u00e9matique bien d\u00e9finie).<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><strong>Le biais de \u00ab\u00a0data-mining\u00a0\u00bb est l&rsquo;erreur de croire que tout ce que vous trouvez pendant une recherche selon cette m\u00e9thode est significatif<\/strong> (c&rsquo;est-\u00e0-dire non uniquement du \u00e0 la chance)<\/span>.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Car il faut bien comprendre la chose suivante: si vous avez assez de donn\u00e9es, et si vous observez ces donn\u00e9es de suffisamment de mani\u00e8res diff\u00e9rentes (des \u00ab\u00a0observations\u00a0\u00bb ) <strong>vous trouverez toujours \u00ab\u00a0quelque chose\u00a0\u00bb<\/strong>. Ceci une v\u00e9rit\u00e9 statistique, ce n&rsquo;est pas une opinion. C&rsquo;est math\u00e9matique.<\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span class=\"\">Il y a toujours quelqu&rsquo;un qui gagne au loto.<\/span> M\u00eame si la distribution des tirages est absolument al\u00e9atoire, si vous essayez assez longtemps, ou si suffisamment de personnes jouent, un \u00e9v\u00e9nement tr\u00e8s improbable se produira:\u00a0 i<span class=\"\">l y aura un gagnant au loto.<br \/>\n<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Prenons un autre exemple : cette vid\u00e9o illustre l&rsquo;utilisation d&rsquo;un \u00ab\u00a0tableau de Galton\u00a0\u00bb. Ce jeu scientifique classique est le meilleur moyen d&rsquo;exp\u00e9rimenter visuellement la distribution normale, ou en langage plus classique \u00ab\u00a0la th\u00e9orie des grands nombres\u00a0\u00bb.<br \/>\n<\/span><\/p>\n<p><iframe loading=\"lazy\" title=\"The Galton Board\" width=\"660\" height=\"495\" src=\"https:\/\/www.youtube.com\/embed\/Kq7e6cj2nDw?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Comme vous pouvez le voir, il y a toujours des billes qui tombent aux extr\u00e9mit\u00e9s du plateau. C&rsquo;est tr\u00e8s improbable mais \u00e7a arrive \u00e0 chaque fois car il y a tellement de billes qui tombent que c&rsquo;est in\u00e9vitable.<\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Le risque est le suivant : si vous regardez uniquement ces billes \u00ab\u00a0extr\u00eames\u00a0\u00bb sans regarder le reste, vous pourriez \u00eatre tent\u00e9s de penser : \u00ab\u00a0cela ne peut pas \u00eatre al\u00e9atoire, il y a quelque chose qui ne va pas avec la planche\u00a0\u00bb.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">La principale erreur du biais de \u00ab\u00a0data-mining\u00a0\u00bb est de croire ceci:<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>\u00ab\u00a0Si c&rsquo;est tr\u00e8s improbable, mais se produit quand m\u00eame, alors ce n&rsquo;est pas al\u00e9atoire\u00a0\u00bb<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Un autre bon exemple serait le tour de la proph\u00e9tie des livres de Nostradamus: si vous mettez toutes les lettres d&rsquo;un livre dans une matrice carr\u00e9e pour chaque page et que vous cherchez des mots dans toutes les directions, vous vous retrouverez avec un nombre colossal de mots parmi lesquels vous pourrez choisir.<\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Voici un exemple ci-dessous:<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-555\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/06\/matrix1-300x296.jpg\" alt=\"\" width=\"300\" height=\"296\" srcset=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/06\/matrix1-300x296.jpg 300w, https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/06\/matrix1.jpg 500w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"This is &quot;supposedly&quot; a single page from the bible from which a especially creative conspirationist (not me) found &quot;hidden&quot; names.\">Cette image pr\u00e9tend repr\u00e9senter une page de la Bible \u00e0 l&rsquo;int\u00e9rieur de laquelle un conspirationniste particuli\u00e8rement cr\u00e9atif (pas moi) aurait trouv\u00e9 des noms \u00ab\u00a0cach\u00e9s\u00a0\u00bb. <\/span><span title=\"The fact that those very related words are available on the same page is very improbable indeed, however this is pure luck (malversation?).\">Le fait que ces mots tr\u00e8s apparent\u00e9s soient disponibles sur la m\u00eame page est certes extr\u00eamement improbable, <strong>mais cela reste du pur hasard, ne vous y trompez pas.<\/strong><\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"If you take enough bible pages and analyze them this way you WILL find something that might look like this.\">Si vous prenez suffisamment de pages de livres et les analysez de cette fa\u00e7on (automatiquement, des logiciels existent pour cela), vous aurez de tr\u00e8s bonnes chances d&rsquo;arriver \u00e0 un r\u00e9sultat similaire.<br \/>\n<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"If, at the opposite, you try to look for a very specific text on one page you will probably never find it, because it is actually almost pure randomness. \">Si, au contraire, vous essayez de chercher un texte tr\u00e8s sp\u00e9cifique sur une page, vous ne le trouverez tr\u00e8s probablement jamais.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"Randomness is often very badly understood.\">Le fait est que la notion de hasard est souvent mal comprise. <\/span><span title=\"In fact randomness can look very very much not random.\">En fait, <strong>un ph\u00e9nom\u00e8ne parfaitement al\u00e9atoire peut et doit sous certains angles paraitre tr\u00e8s peu al\u00e9atoire<\/strong>. <\/span><span title=\"The best illustration of this is this classic test: \">La meilleure illustration de ceci est cette exp\u00e9rience classique :<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"If you were asked to artificially create a &quot;totally random&quot; series of 1.000 head or tails flipping results, you will probably do a very poor job at it (so do I).\">Si l&rsquo;on vous demandait de cr\u00e9er artificiellement, sur le papier, le <strong>r\u00e9sultat d&rsquo;une s\u00e9rie \u00abtotalement al\u00e9atoire\u00bb de 1.000 tirages de pile ou face<\/strong>, vous auriez bien du mal \u00e0 la faire ( tout comme moi ). <\/span><span title=\"Noticeably there is a good chance that you will fail to put long enough series of same side flips ( for example 4, 5 or 6 tails in a row), because it will look very NOT random to you. \">En particulier il y a de fortes chances que votre s\u00e9rie ne contienne pas assez de s\u00e9ries longues de tirages du m\u00eame cot\u00e9 (par exemple 4, 5 ou 6 pile d&rsquo;affil\u00e9e), car cela ne vous para\u00eetrait \u00ab\u00a0pas assez al\u00e9atoire\u00a0\u00bb.<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"But it will happen.\">Mais cela arrivera en r\u00e9alit\u00e9. <\/span><span title=\"Statistically if the series is really random it will happen and you should insert long series of same side flips.\">Statistiquement, si la s\u00e9rie de tirage \u00e0 pile ou face est vraiment al\u00e9atoire, des s\u00e9ries longues du m\u00eame cot\u00e9 doivent se produire.<\/span><\/span><\/p>\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Data-mining bias is fueled by 2 errors \"><span style=\"font-size: 14pt; color: #993300;\">Ce biais est aliment\u00e9 par 2 erreurs<\/span><br \/>\n<\/span><\/span><\/h2>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"The data-mining bias is actually very closely linked to 2 other very important cognitive biases that you should be aware of : \">Le biais de \u00ab\u00a0<em>data-mining<\/em>\u00a0\u00bb est en r\u00e9alit\u00e9 tr\u00e8s \u00e9troitement li\u00e9 \u00e0 deux autres biais cognitifs tr\u00e8s importants dont vous devez \u00eatre conscients:<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"1 - Confusion between correlation and causality.\">1 &#8211; <strong>Confusion entre la corr\u00e9lation et la causalit\u00e9:<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Series of data that are correlated together in a data set can actually have no real world link between them.\">Deux s\u00e9ries de donn\u00e9es qui sont <span style=\"text-decoration: underline;\">corr\u00e9l\u00e9es<\/span> ensemble dans un \u00e9chantillon de donn\u00e9es peuvent en fait n&rsquo;avoir aucun lien r\u00e9el entre elles. <\/span><span title=\"Correlation that are purely the result of random noise in the data are called &quot;spurious correlations&quot;. \">Les corr\u00e9lations qui sont purement le r\u00e9sultat d&rsquo;un bruit al\u00e9atoire dans les donn\u00e9es ont un nom et sont ainsi appel\u00e9es <em>spurious correlation<\/em> ou \u00ab\u00a0correlation parasite\u00a0\u00bb en fran\u00e7ais approximatif (encore une fois pas vraiment de traduction).<br \/>\n<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"But been correlated does not mean that there is a real-world link, a &quot;causality&quot;, that will hold in other data sets (the future notably).\"><strong>Mais \u00eatre corr\u00e9l\u00e9 dans un s\u00e9rie de donn\u00e9e ne signifie pas qu&rsquo;il y ait un lien r\u00e9el, une <span style=\"text-decoration: underline;\">\u00ab\u00a0causalit\u00e9\u00a0\u00bb<\/span>, qui va donc se reproduire dans d&rsquo;autres ensembles de donn\u00e9es<\/strong>. <\/span><span title=\"A link that says and verifies : if A goes up then B will go up too in the future&quot;. \">Un lien qui dit et v\u00e9rifiera \u00e0 l&rsquo;avenir : si \u00ab\u00a0A monte, B va monter aussi\u00a0\u00bb.<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"If you want good and fun examples of this you can go there.\">Pour quelque exemples amusant de ceci je vous conseille d&rsquo;<strong>aller regarder rapidement <a href=\"http:\/\/www.tylervigen.com\/spurious-correlations\">ce site<\/a> d\u00e9di\u00e9 au probl\u00e8me<\/strong>. <\/span><span title=\"A website gathering spurious correlations that are completely absurd. \">Vous y apprendrez par exemple que le nombre de morts par jets de vapeurs et brulures par objet chaud au Etats-Unis (je l&rsquo;invente pas) a ainsi \u00e9t\u00e9 tr\u00e8s fortement corr\u00e9l\u00e9 (87%) \u00e0 l&rsquo;age de Miss America entre 1999 et 2009&#8230;<\/span><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"2 - Confirmation bias, is even more disturbing : it consists in unconsciously ( if it consciously then it is pure dishonesty and not a bias ) discarding any evidence that is not supporting your preconceived opinion and only keeping evidence that match what you want to find. \">2 &#8211; <strong>Le biais de confirmation<\/strong> est lui encore plus d\u00e9rangeant, bien que largement r\u00e9pandu: il consiste \u00e0 inconsciemment ( si c&rsquo;est consciemment alors c&rsquo;est de la malhonn\u00eatet\u00e9 pure et non un biais ) rejeter toute preuve qui ne va pas dans le sens de notre opinion pr\u00e9con\u00e7ue. <strong>Nous ne conservons alors que les arguments et\u00a0 preuves correspondants \u00e0 ce que nous voulons trouver<\/strong>. Nous sommes naturellement pouss\u00e9s \u00e0 confirmer notre opinion plut\u00f4t qu&rsquo;\u00e0 changer d&rsquo;avis et par cons\u00e9quent \u00e0 creuser dans les donn\u00e9es pour d\u00e9nicher cette confirmation.<\/span><\/p>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Think about it when you search something backing your opinion though a google search.\">Pensez-y la prochaine fois que vous rechercherez sur Google quelque chose pour prouver <span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\">\u00e0 votre belle-m\u00e8re<\/span> que vous avez raison. <\/span><span title=\"You will have a natural tendency to overlook the links whose title don't match your opinion and go directly to links that do.\">Vous aurez une tendance naturelle \u00e0 n\u00e9gliger les liens dont le titre ne correspond pas \u00e0 votre opinion et \u00e0 aller directement aux liens qui vous semblent \u00ab\u00a0rationnels et s\u00e9rieux\u00a0\u00bb. Mais bon elle a tors non ?<br \/>\n<\/span><\/span><\/p>\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 14pt; color: #993300;\" tabindex=\"-1\">Tr\u00e8s bien, que puis-je faire pour \u00e9viter ce biais ?<\/span><\/h2>\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><br \/>\nEt bien d&rsquo;abord, <strong>vous devez en \u00eatre conscient.<\/strong> Cela devrait aller maintenant que vous avez lu cet article jusqu&rsquo;\u00e0 ce point. Mais n&rsquo;oubliez pas ce concept \u00e0 l&rsquo;avenir.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Ensuite, vous devez <strong>rester extr\u00eamement prudent d\u00e9s lors que vous \u00eates face \u00e0 une analyse bas\u00e9e sur un ensemble tr\u00e8s large de donn\u00e9es<\/strong>. Gardez \u00e0 l&rsquo;esprit que vous pouvez \u00eatre dup\u00e9 par d&rsquo;autres autant que par vous-m\u00eame!<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Enfin, vous devriez<strong> toujours essayer de v\u00e9rifier les r\u00e9sultats de ces \u00e9tudes par la m\u00e9thode qu&rsquo;on appelle <em>out-of-sample analysis<\/em> ou \u00ab\u00a0analyse hors-\u00e9chantillon<\/strong>\u00ab\u00a0. La logique de cette m\u00e9thode est de rechercher des corr\u00e9lations, des s\u00e9ries chronologiques, ainsi que tout type de relation qui pourrait avoir une valeur pour vous dans un ensemble pr\u00e9cis de donn\u00e9es, mais de toujours v\u00e9rifier la validit\u00e9 des r\u00e9sultats dans <strong>un autre ensemble de donn\u00e9es<\/strong> totalement s\u00e9par\u00e9.<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Pour les s\u00e9ries chronologiques, cela signifierait quelque chose comme \u00absi je d\u00e9couvre que la croissance de la population de castors am\u00e9ricains a augment\u00e9 parall\u00e8lement au nombre de voitures vendues au Japon entre 1980 et 1990, cette relation a elle persist\u00e9 au cours des 10 ann\u00e9es suivantes ?<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Dans bien des cas cela prouvera qu&rsquo;il n&rsquo;y a en fait aucune relation entre ces deux ph\u00e9nom\u00e8nes<\/strong> ( d\u00e9sol\u00e9 de vous d\u00e9cevoir ), mais de temps en temps la relation sera confirm\u00e9e, et l\u00e0 vous pourrez, avec prudence, commencer \u00e0 tirer des conclusions int\u00e9ressantes.<\/span><\/p>\n<p style=\"text-align: justify;\">\n","protected":false,"raw":"<p style=\"text-align: justify;\"><span style=\"font-size: 10pt;\"><a href=\"https:\/\/kudueconomics.eu\/beware-of-the-vicious-data-mining-bias\"><em>Read this post in english<\/em><\/a><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span style=\"color: #993300;\"><strong><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\">L'analyse de grandes quantit\u00e9s de donn\u00e9es peut vous conduire \u00e0 une grave erreur. <\/span><\/strong><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><strong><span class=\"\" style=\"color: #993300;\">Voici pourquoi, et comment vous en pr\u00e9server.<\/span><span class=\"\">\r\n<\/span><\/strong><\/span><\/span><\/p>\r\n<img class=\"aligncenter size-medium wp-image-592\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-300x300.jpg\" alt=\"\" width=\"300\" height=\"300\" \/>\r\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Dans mon r\u00e9cent \"quiz\" parlant de technologie, j'ai mentionn\u00e9 que d\u00e9nicher des donn\u00e9es exploitables enfouies sous des montagnes de donn\u00e9es inutiles, cette activit\u00e9 que l'on nomme dans la jargon \"data-mining\", constituait un parfait domaine d'application pour l'intelligence artificielle et en particulier pour les r\u00e9seaux neuronaux.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><span style=\"text-decoration: underline;\">Mais<\/span> j'ai \u00e9galement mentionn\u00e9 que <strong>cette activit\u00e9 pouvait conduire \u00e0 une \u00e9norme erreur<\/strong>, \u00e0 un biais logique dont nous devons tous nous m\u00e9fier.<\/span> <span class=\"\">Ce biais, que l'on peut appeler sans surprise \u00ab<em>le data-mining bias<\/em>\u00bb (pas de traduction fran\u00e7aise correcte), est ce dont je souhaite parler aujourd'hui.<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Parlons donc de cet effrayant biais !<\/span><\/p>\r\n<!--more-->\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Celui-ci, de part son nom anglais barbare et son\u00a0 lien s\u00e9mantique avec l'informatique <strong>peut sembler quelque chose de tr\u00e8s technique et qui ne peut donc concerner que les geeks. Mais ce n'est pas le cas du tout!<\/strong> C'est une erreur tr\u00e8s commune \u00e0 laquelle tout le monde est confront\u00e9 r\u00e9guli\u00e8rement. Vous, moi, tout le monde.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Rappelons n\u00e9anmoins que le <strong>processus d'exploration syst\u00e9matique de grandes quantit\u00e9s de donn\u00e9es reste une m\u00e9thode parfaitement valid<\/strong>e qui consiste \u00e0 extraire de ces donn\u00e9es, \u00e0 priori sans int\u00e9r\u00eat, des corr\u00e9lations, des s\u00e9ries temporelles, des tendances, des similitudes... \"Bien pratiqu\u00e9\", avec prudence et rigueur, cette m\u00e9thode peut en effet conduire \u00e0 des d\u00e9couvertes utiles.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Mais elle peut aussi conduire \u00e0 une grosse erreur<\/strong>. Voici pourquoi.<\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 14pt; color: #993300;\" tabindex=\"-1\">Mais d'abord, illustrons-la.<\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Voici donc quelques e<span class=\"\">xemples concrets pour illustrer ce probl\u00e8me et comprendre pourquoi vous devriez lire la fin de cet article !<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong><span class=\"\">Premier exemple: <\/span>le sensationnalisme journalistique<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">Les journalistes ont besoin de nous faire peur, ils ont besoin de nous faire croire tous les jours que quelque chose m\u00e9rite d'\u00eatre imprim\u00e9.<\/span> Parfois, c'est vrai, mais parfois ce n'est pas vrai du tout.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Et cela se remarque particuli\u00e8rement lorsqu'ils relatent, \u00e0 titre d'exemple parmi tant d'autres, des <strong>conditions m\u00e9t\u00e9orologiques \u00abextr\u00eames\u00bb<\/strong>.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">C'est en effet un sujet dans lequel ils sont tr\u00e8s souvent les victimes plus ou moins consentantes du biais tant redout\u00e9.<\/span> <span class=\"\">Pour faire les gros titres, <strong>ils creusent dans l'histoire ou la g\u00e9ographie jusqu'\u00e0 ce qu'ils trouvent quelque chose<\/strong> \u00e0 comparer avec les conditions m\u00e9t\u00e9orologique actuelles et nous effrayer de la sorte : \"Nous vivons un moment historique de froid intense et dangereux\".<\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span class=\"\"> La preuve: \"il n'a jamais fait aussi<\/span><span class=\"\"> froid dans ce d\u00e9partement un 17 novembre depuis 23 ans. Nous sommes tous condamn\u00e9s!\".<\/span><\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span title=\"This is &quot;data-mining bias &quot; 101. I you are a journalist stop doing that.\">Voil\u00e0 un illustration parfaite du biais de \"<em>data-mining<\/em>\". Si vous \u00eates journaliste arr\u00eater de faire cela s'il vous plait. <\/span><span title=\"Stop scraping historical data to find anything that might make present spectacular when it is really not.\"><strong>Arr\u00eatez de creuser les donn\u00e9es historiques ou g\u00e9ographiques jusqu'\u00e0 trouver quelque chose qui pourrait rendre spectaculaire ce qui ne l'est pas<\/strong>. Il fait froid en hiver et chaud en \u00e9t\u00e9<\/span><span title=\"Extreme weather happens, it is normal.\">, c'est normal. <\/span><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span title=\"It might indeed happen more often than normal recently due to global warming, true, but a single event is not enough to prove anything about it.\">Bien s\u00fbr il est clair que cela se produit plus souvent que la normale en raison du changement climatique, c'est vrai, mais un seul \u00e9v\u00e9nement ne suffit pas \u00e0 prouver quoi que ce soit \u00e0 ce sujet, et alimenter la peur \u00e0 ce sujet n'est pas sain.<\/span><\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"And this is of course not limited to weather reports: crime rates growing, bloated immigration numbers, number of shark attacks... Anything that might scare the public is potentially subject to the bias. \"><strong>Et ceci n'est bien s\u00fbr pas limit\u00e9 aux bulletins m\u00e9t\u00e9orologiques.<\/strong> Cette erreur se retrouve sur d'autres sujets comme la croissance des taux de petite d\u00e9linquance dans des quartiers \u00e9troits (\"significatifs\" d'une hausse g\u00e9n\u00e9rale du crime), des chiffres d'immigration depuis un pays particulier et sur une p\u00e9riode courte, nombre d'attaques de requins sur une plage au plus haut depuis 20 ans... Tout ce qui peut effrayer le public par un chiffre cl\u00e9 est potentiellement sujet au biais.<\/span><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Deuxi\u00e8me exemple: corr\u00e9lations m\u00e9dicales \u00e9tranges<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"We can often hear about &quot;medical studies&quot; that &quot;prove&quot; that consuming a certain product give you a high correlation of dying in horrible pain or at the contrary to get younger and even more handsome.\">On entend souvent parler d'\u00ab\u00e9tudes m\u00e9dicales\u00bb qui \u00abprouvent\u00bb que consommer un certain produit vous donne une forte chance de mourir dans d'horribles souffrances ou au contraire de devenir plus jeune et encore plus beau. <\/span><span title=\"They always seem very surprising, even weird relations that are found by an obscure research team on very specific subsets of data. \">Ces \u00e9tudes, toujours tr\u00e8s surprenantes, proviennent parfois de \"chercheurs am\u00e9ricains\" (les meilleurs !), et <strong>exposent des relations \u00e9tranges sur des sous-ensembles de donn\u00e9es tr\u00e8s sp\u00e9cifiques<\/strong>.<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"To be perfectly honest, as I am not being naive here, most of those studies are actually lobby financed of course, and while they might actually find data that &quot;prove&quot; what they want to prove, they are dishonest as they know that this does\">Pour \u00eatre tout \u00e0 fait honn\u00eate, car je ne suis pas compl\u00e8tement na\u00eff, la plupart de ces \u00e9tudes sont financ\u00e9es par des <em>lobbys<\/em> et bien qu'elles puissent effectivement trouver des donn\u00e9es qui \u00abprouvent\u00bb ce qu'elles veulent prouver, elles sont malhonn\u00eates car elles savent que cela <\/span><span title=\"not prove much and hide it. \">ne prouve pas grand chose et se gardent bien de vous le dire.<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"Here is a textbook example of this : how coffee can make you live longer !\">Voici un exemple typique de ceci: <a href=\"https:\/\/edition.cnn.com\/2017\/07\/10\/health\/coffee-leads-to-longer-life-studies-reaffirm\/index.html\">comment le caf\u00e9 peut vous faire vivre plus longtemps!<\/a><\/span> ( en anglais ).<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">En voici un autre: il y a quelques jours, ma femme a essay\u00e9 de me convaincre que je devais arr\u00eater ma consommation d'une petite bi\u00e8re en rentrant le soir avant le diner. Mais ce qu'elle a trouv\u00e9 en premier lien sur Google ne lui a pas du tout plu puisqu'elle est tomb\u00e9e sur \u00e0 une campagne financ\u00e9e par un groupement de brasseurs relatant une \u00e9tude qui \u00abprouvait\u00bb que la bi\u00e8re \u00e9tait bonne pour la sant\u00e9... ceci en suivant l'am\u00e9lioration d'une <strong>caract\u00e9ristique m\u00e9dicale bien particuli\u00e8re, dans un groupe ethnique bien particulier et sur une p\u00e9riode bien particuli\u00e8re<\/strong>...<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">J'ai l\u00e2chement, avec hypocrisie, essay\u00e9 d'utiliser cette \"\u00e9tude\" pour valider mon vice, mais elle n'a pas \u00e9t\u00e9 dupe. Elle a naturellement et intuitivement d\u00e9busqu\u00e9 le biais de \"<em>data-mining<\/em>\" qui n'\u00e9tait pas si subtilement cach\u00e9 dans les r\u00e9sultats de l'\u00e9tude.<strong> Je n'ai plus le droit \u00e0 ma bi\u00e8re du soir.<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><strong>Observez comment ces \u00e9tudes se limitent \u00e0 des \u00e9chantillons tr\u00e8s sp\u00e9cifiques<\/strong>... c'est ainsi que vous pouvez d\u00e9tecter ce biais, volontaire ou non.<\/span> E<span class=\"\">n limitant les \u00e9chantillons et en les s\u00e9parant en sous-ensembles se recoupant selon de nombreux crit\u00e8res, <strong>vous cr\u00e9er de nombreuses \"observations\" diff\u00e9rentes sur les m\u00eames donn\u00e9es<\/strong> et vous avez alors une tr\u00e8s bonne probabilit\u00e9 de trouver ce que vous voulez trouver.\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">En faisant le tour d'une droite dans l'espace il y un moment ou vous pourrez dire que vu sous cet angle elle ressemble \u00e0 un point. Cela n'en fera pas un point pour autant !<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><strong>Troisi\u00e8me exemple: le test historique de strat\u00e9gie d'investissement ou \"backtesting\"<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Souvent, en essayant de concevoir une strat\u00e9gie d'investissement, les analystes financiers utilisent les donn\u00e9es de march\u00e9 pass\u00e9es, que ce soit des donn\u00e9es de prix ou fondamentales, et creusent ces donn\u00e9es dans l'espoir de trouver la <strong>relation d'investissement la plus c\u00e9l\u00e8bre au monde<\/strong>:<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>\"Si ceci se produit en un instant N, alors le prix de cette action sera \u00e0 la hausse en N + 1, et je serais incroyablement riche \u00e0 l'instant N + 2.\"<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Et ils trouvent toujours une telle relation. Toujours. Sur le papier. <strong>Ils recherchent tous la martingale de l'investissement<\/strong> (ne perdez pas votre temps et votre argent cette relation n'existe pas, l'investissement est difficile, ne devient jamais plus facile et exige beaucoup de travail et de patience).<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">Mais quand ils d\u00e9cident de tester cela dans la vraie vie (et je dois avouer que je l'ai fait!), cela ne fonctionne pas et ils perdent de l'argent (et j'en ai perdu, mais c'est ainsi qu'on apprend sur les march\u00e9s).<\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><\/span><\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span style=\"font-size: 14pt; color: #993300;\">Tr\u00e8s bien tout \u00e7\u00e0, mais au final c'est quoi ce biais ?<\/span>\r\n<\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><strong>La m\u00e9thode statistique dit de \"data-mining\"<\/strong> consiste \u00e0 traiter automatiquement d'\u00e9normes quantit\u00e9s de donn\u00e9es afin de d\u00e9nicher des informations utiles et <strong>statistiquement significatives<\/strong> (ce qui est une notion math\u00e9matique bien d\u00e9finie).<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><strong>Le biais de \"data-mining\" est l'erreur de croire que tout ce que vous trouvez pendant une recherche selon cette m\u00e9thode est significatif<\/strong> (c'est-\u00e0-dire non uniquement du \u00e0 la chance)<\/span>.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Car il faut bien comprendre la chose suivante: si vous avez assez de donn\u00e9es, et si vous observez ces donn\u00e9es de suffisamment de mani\u00e8res diff\u00e9rentes (des \"observations\" ) <strong>vous trouverez toujours \"quelque chose\"<\/strong>. Ceci une v\u00e9rit\u00e9 statistique, ce n'est pas une opinion. C'est math\u00e9matique.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span class=\"\">Il y a toujours quelqu'un qui gagne au loto.<\/span> M\u00eame si la distribution des tirages est absolument al\u00e9atoire, si vous essayez assez longtemps, ou si suffisamment de personnes jouent, un \u00e9v\u00e9nement tr\u00e8s improbable se produira:\u00a0 i<span class=\"\">l y aura un gagnant au loto.\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Prenons un autre exemple : cette vid\u00e9o illustre l'utilisation d'un \"tableau de Galton\". Ce jeu scientifique classique est le meilleur moyen d'exp\u00e9rimenter visuellement la distribution normale, ou en langage plus classique \"la th\u00e9orie des grands nombres\".\r\n<\/span><\/p>\r\nhttps:\/\/www.youtube.com\/watch?v=Kq7e6cj2nDw\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Comme vous pouvez le voir, il y a toujours des billes qui tombent aux extr\u00e9mit\u00e9s du plateau. C'est tr\u00e8s improbable mais \u00e7a arrive \u00e0 chaque fois car il y a tellement de billes qui tombent que c'est in\u00e9vitable.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Le risque est le suivant : si vous regardez uniquement ces billes \"extr\u00eames\" sans regarder le reste, vous pourriez \u00eatre tent\u00e9s de penser : \"cela ne peut pas \u00eatre al\u00e9atoire, il y a quelque chose qui ne va pas avec la planche\".<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">La principale erreur du biais de \"data-mining\" est de croire ceci:<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>\"Si c'est tr\u00e8s improbable, mais se produit quand m\u00eame, alors ce n'est pas al\u00e9atoire\"<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Un autre bon exemple serait le tour de la proph\u00e9tie des livres de Nostradamus: si vous mettez toutes les lettres d'un livre dans une matrice carr\u00e9e pour chaque page et que vous cherchez des mots dans toutes les directions, vous vous retrouverez avec un nombre colossal de mots parmi lesquels vous pourrez choisir.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Voici un exemple ci-dessous:<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><img class=\"aligncenter size-medium wp-image-555\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/06\/matrix1-300x296.jpg\" alt=\"\" width=\"300\" height=\"296\" \/><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"This is &quot;supposedly&quot; a single page from the bible from which a especially creative conspirationist (not me) found &quot;hidden&quot; names.\">Cette image pr\u00e9tend repr\u00e9senter une page de la Bible \u00e0 l'int\u00e9rieur de laquelle un conspirationniste particuli\u00e8rement cr\u00e9atif (pas moi) aurait trouv\u00e9 des noms \"cach\u00e9s\". <\/span><span title=\"The fact that those very related words are available on the same page is very improbable indeed, however this is pure luck (malversation?).\">Le fait que ces mots tr\u00e8s apparent\u00e9s soient disponibles sur la m\u00eame page est certes extr\u00eamement improbable, <strong>mais cela reste du pur hasard, ne vous y trompez pas.<\/strong><\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"If you take enough bible pages and analyze them this way you WILL find something that might look like this.\">Si vous prenez suffisamment de pages de livres et les analysez de cette fa\u00e7on (automatiquement, des logiciels existent pour cela), vous aurez de tr\u00e8s bonnes chances d'arriver \u00e0 un r\u00e9sultat similaire.\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"If, at the opposite, you try to look for a very specific text on one page you will probably never find it, because it is actually almost pure randomness. \">Si, au contraire, vous essayez de chercher un texte tr\u00e8s sp\u00e9cifique sur une page, vous ne le trouverez tr\u00e8s probablement jamais.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"Randomness is often very badly understood.\">Le fait est que la notion de hasard est souvent mal comprise. <\/span><span title=\"In fact randomness can look very very much not random.\">En fait, <strong>un ph\u00e9nom\u00e8ne parfaitement al\u00e9atoire peut et doit sous certains angles paraitre tr\u00e8s peu al\u00e9atoire<\/strong>. <\/span><span title=\"The best illustration of this is this classic test: \">La meilleure illustration de ceci est cette exp\u00e9rience classique :<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"If you were asked to artificially create a &quot;totally random&quot; series of 1.000 head or tails flipping results, you will probably do a very poor job at it (so do I).\">Si l'on vous demandait de cr\u00e9er artificiellement, sur le papier, le <strong>r\u00e9sultat d'une s\u00e9rie \u00abtotalement al\u00e9atoire\u00bb de 1.000 tirages de pile ou face<\/strong>, vous auriez bien du mal \u00e0 la faire ( tout comme moi ). <\/span><span title=\"Noticeably there is a good chance that you will fail to put long enough series of same side flips ( for example 4, 5 or 6 tails in a row), because it will look very NOT random to you. \">En particulier il y a de fortes chances que votre s\u00e9rie ne contienne pas assez de s\u00e9ries longues de tirages du m\u00eame cot\u00e9 (par exemple 4, 5 ou 6 pile d'affil\u00e9e), car cela ne vous para\u00eetrait \"pas assez al\u00e9atoire\".<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"But it will happen.\">Mais cela arrivera en r\u00e9alit\u00e9. <\/span><span title=\"Statistically if the series is really random it will happen and you should insert long series of same side flips.\">Statistiquement, si la s\u00e9rie de tirage \u00e0 pile ou face est vraiment al\u00e9atoire, des s\u00e9ries longues du m\u00eame cot\u00e9 doivent se produire.<\/span><\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Data-mining bias is fueled by 2 errors \"><span style=\"font-size: 14pt; color: #993300;\">Ce biais est aliment\u00e9 par 2 erreurs<\/span>\r\n<\/span><\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"The data-mining bias is actually very closely linked to 2 other very important cognitive biases that you should be aware of : \">Le biais de \"<em>data-mining<\/em>\" est en r\u00e9alit\u00e9 tr\u00e8s \u00e9troitement li\u00e9 \u00e0 deux autres biais cognitifs tr\u00e8s importants dont vous devez \u00eatre conscients:<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"1 - Confusion between correlation and causality.\">1 - <strong>Confusion entre la corr\u00e9lation et la causalit\u00e9:<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Series of data that are correlated together in a data set can actually have no real world link between them.\">Deux s\u00e9ries de donn\u00e9es qui sont <span style=\"text-decoration: underline;\">corr\u00e9l\u00e9es<\/span> ensemble dans un \u00e9chantillon de donn\u00e9es peuvent en fait n'avoir aucun lien r\u00e9el entre elles. <\/span><span title=\"Correlation that are purely the result of random noise in the data are called &quot;spurious correlations&quot;. \">Les corr\u00e9lations qui sont purement le r\u00e9sultat d'un bruit al\u00e9atoire dans les donn\u00e9es ont un nom et sont ainsi appel\u00e9es <em>spurious correlation<\/em> ou \"correlation parasite\" en fran\u00e7ais approximatif (encore une fois pas vraiment de traduction).\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"But been correlated does not mean that there is a real-world link, a &quot;causality&quot;, that will hold in other data sets (the future notably).\"><strong>Mais \u00eatre corr\u00e9l\u00e9 dans un s\u00e9rie de donn\u00e9e ne signifie pas qu'il y ait un lien r\u00e9el, une <span style=\"text-decoration: underline;\">\"causalit\u00e9\"<\/span>, qui va donc se reproduire dans d'autres ensembles de donn\u00e9es<\/strong>. <\/span><span title=\"A link that says and verifies : if A goes up then B will go up too in the future&quot;. \">Un lien qui dit et v\u00e9rifiera \u00e0 l'avenir : si \"A monte, B va monter aussi\".<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"If you want good and fun examples of this you can go there.\">Pour quelque exemples amusant de ceci je vous conseille d'<strong>aller regarder rapidement <a href=\"http:\/\/www.tylervigen.com\/spurious-correlations\">ce site<\/a> d\u00e9di\u00e9 au probl\u00e8me<\/strong>. <\/span><span title=\"A website gathering spurious correlations that are completely absurd. \">Vous y apprendrez par exemple que le nombre de morts par jets de vapeurs et brulures par objet chaud au Etats-Unis (je l'invente pas) a ainsi \u00e9t\u00e9 tr\u00e8s fortement corr\u00e9l\u00e9 (87%) \u00e0 l'age de Miss America entre 1999 et 2009...<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"2 - Confirmation bias, is even more disturbing : it consists in unconsciously ( if it consciously then it is pure dishonesty and not a bias ) discarding any evidence that is not supporting your preconceived opinion and only keeping evidence that match what you want to find. \">2 - <strong>Le biais de confirmation<\/strong> est lui encore plus d\u00e9rangeant, bien que largement r\u00e9pandu: il consiste \u00e0 inconsciemment ( si c'est consciemment alors c'est de la malhonn\u00eatet\u00e9 pure et non un biais ) rejeter toute preuve qui ne va pas dans le sens de notre opinion pr\u00e9con\u00e7ue. <strong>Nous ne conservons alors que les arguments et\u00a0 preuves correspondants \u00e0 ce que nous voulons trouver<\/strong>. Nous sommes naturellement pouss\u00e9s \u00e0 confirmer notre opinion plut\u00f4t qu'\u00e0 changer d'avis et par cons\u00e9quent \u00e0 creuser dans les donn\u00e9es pour d\u00e9nicher cette confirmation.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Think about it when you search something backing your opinion though a google search.\">Pensez-y la prochaine fois que vous rechercherez sur Google quelque chose pour prouver <span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\">\u00e0 votre belle-m\u00e8re<\/span> que vous avez raison. <\/span><span title=\"You will have a natural tendency to overlook the links whose title don't match your opinion and go directly to links that do.\">Vous aurez une tendance naturelle \u00e0 n\u00e9gliger les liens dont le titre ne correspond pas \u00e0 votre opinion et \u00e0 aller directement aux liens qui vous semblent \"rationnels et s\u00e9rieux\". Mais bon elle a tors non ?\r\n<\/span><\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 14pt; color: #993300;\" tabindex=\"-1\">Tr\u00e8s bien, que puis-je faire pour \u00e9viter ce biais ?<\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">\r\nEt bien d'abord, <strong>vous devez en \u00eatre conscient.<\/strong> Cela devrait aller maintenant que vous avez lu cet article jusqu'\u00e0 ce point. Mais n'oubliez pas ce concept \u00e0 l'avenir.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Ensuite, vous devez <strong>rester extr\u00eamement prudent d\u00e9s lors que vous \u00eates face \u00e0 une analyse bas\u00e9e sur un ensemble tr\u00e8s large de donn\u00e9es<\/strong>. Gardez \u00e0 l'esprit que vous pouvez \u00eatre dup\u00e9 par d'autres autant que par vous-m\u00eame!<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Enfin, vous devriez<strong> toujours essayer de v\u00e9rifier les r\u00e9sultats de ces \u00e9tudes par la m\u00e9thode qu'on appelle <em>out-of-sample analysis<\/em> ou \"analyse hors-\u00e9chantillon<\/strong>\". La logique de cette m\u00e9thode est de rechercher des corr\u00e9lations, des s\u00e9ries chronologiques, ainsi que tout type de relation qui pourrait avoir une valeur pour vous dans un ensemble pr\u00e9cis de donn\u00e9es, mais de toujours v\u00e9rifier la validit\u00e9 des r\u00e9sultats dans <strong>un autre ensemble de donn\u00e9es<\/strong> totalement s\u00e9par\u00e9.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Pour les s\u00e9ries chronologiques, cela signifierait quelque chose comme \u00absi je d\u00e9couvre que la croissance de la population de castors am\u00e9ricains a augment\u00e9 parall\u00e8lement au nombre de voitures vendues au Japon entre 1980 et 1990, cette relation a elle persist\u00e9 au cours des 10 ann\u00e9es suivantes ?<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Dans bien des cas cela prouvera qu'il n'y a en fait aucune relation entre ces deux ph\u00e9nom\u00e8nes<\/strong> ( d\u00e9sol\u00e9 de vous d\u00e9cevoir ), mais de temps en temps la relation sera confirm\u00e9e, et l\u00e0 vous pourrez, avec prudence, commencer \u00e0 tirer des conclusions int\u00e9ressantes.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><\/p>"},"excerpt":{"rendered":"","protected":false,"raw":""},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_en_post_content":"<a href=\"https:\/\/kudueconomics.eu\/fr\/prenez-garde-au-biais-qui-vous-guette\"><em><span style=\"font-size: 10pt;\">Lire cet article en fran\u00e7ais<\/span><\/em><\/a>\r\n\r\n<span style=\"font-size: 12pt; color: #993300;\"><strong>Scraping large amount of data can lead you to a big mistake. Here is why, and how to avoid it.<\/strong><\/span>\r\n\r\n<img class=\"aligncenter size-medium wp-image-592\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-300x300.jpg\" alt=\"\" width=\"300\" height=\"300\" \/>\r\n\r\nIn my recent <a href=\"https:\/\/kudueconomics.eu\/spring-break-tech-quiz\">\"quiz\" about technology<\/a>, I mentioned that finding usable data buried under mountains of useless one, <strong>the activity called \"data-mining\",<\/strong> was a perfect application for artificial intelligence and especially neural networks.\r\n\r\nBut I also mentioned that this activity might also present a huge caveat, <strong>a logical bias that we should all be aware of<\/strong>. This bias, very unsurprisingly named \"data-mining bias\", is what I want to talk about today.\r\n\r\nSo let's talk about this scary \"data-mining bias\".\r\n\r\n<!--more-->\r\n\r\nIt might sound like something that is very technical and that can only concern geeks. <strong>But it is not<\/strong>. <strong>It is a very common mistake that everybody is faced with everyday.<\/strong> Me, you, everyone.\r\n\r\nThe data-mining process is actually a perfectly valid methodology which consists in scraping large amount of data in order to find correlations, time-series, trends, similarities... And *well practiced*, with great caution and self awareness, this can indeed lead to useful discoveries.\r\n\r\n<strong>But is can also lead to a big mistake. Here is why.<\/strong>\r\n<h2>But first let's illustrate it. Here are some examples<\/h2>\r\nWe need to illustrate this in order to have <strong>real-world, non nerdy examples<\/strong> to work with, to understand why you should read the end of this post !\r\n<h3><strong>First example : journalists sensationalism<\/strong><\/h3>\r\nJournalists need to scare us, to make us believe everyday that something worth printing about is happening. Sometime there is, but sometime there is really not.\r\n\r\nThis is especially true when they are reporting, <strong>as an example among many others, \"extreme\" weather conditions.<\/strong>\r\n\r\nThis is indeed a topic in which they are very often subject to the dreaded data-mining bias. <strong>To make up the headlines they go deep into history or geography until they find something<\/strong> to compare the current weather to, making it look \"historical\" and scare us with something like : \"it is so cold out there, proof : is has never been this cold in this very specific county a 17th of November for 23 years, oh my god what is happening WE ARE ALL DOOMED\".\r\n\r\nThis is \"data-mining bias \" 101. I you are a journalist stop doing that. <strong>Stop scraping historical data to find anything that might make present spectacular when it is really not<\/strong>. <strong>Extreme weather happens, it is normal<\/strong>. It might indeed happen more often than normal recently due to global warming, true, but a single event is not enough to prove anything about it. And this is of course not limited to weather reports: crime rates growing in very limited neighborhood, bloated immigration numbers from specific regions, number of shark attacks on a specific beach... Anything that might scare the public is potentially subject to the bias.\r\n<h3><strong>Second example : Weird medical correlations<\/strong><\/h3>\r\nWe can often hear about \"medical studies\" that \"prove\" that consuming a certain product give you a high correlation of dying in horrible pain or at the contrary to get younger and even more handsome. <strong>They always present very surprising, even weird relations<\/strong> that are found by obscure research teams on very specific subsets of data.\r\n\r\nTo be perfectly honest, as I am not being naive here, <strong>most of those studies are actually lobby financed of course<\/strong>, and while they might actually find data that \"prove\" what they want to prove,\u00a0 they are dishonest as they know that this does not prove much and hide it.\r\n\r\nHere is a textbook example of this : <a href=\"https:\/\/edition.cnn.com\/2017\/07\/10\/health\/coffee-leads-to-longer-life-studies-reaffirm\/index.html\">how coffee can make you live longer !<\/a>\r\n\r\nAnother one : two days ago my wife tried to convince me that I should stop having my \"back home\" beer before diner. What she first-link-found on Google did not please her as she stepped into a beer-industry financed campaign based on\u00a0 a study that \"proved\" that beer was good for our health...\r\n\r\nI cowardly tried to use this \"research\" to validate my vice, but she was not duped. She naturally busted the data-mining bias that was not so subtlety hidden in the study results. <strong>There no back-home beer for me anymore...<\/strong>\r\n\r\n<strong>Look at how those studies limit themselves to very specific samples<\/strong>... this is how you detect the bias, be it voluntary or not. The thing is, by limiting the samples and separating them in limited subsets or \"observations\" you have a very good probability to find what you want.\r\n<h3><strong>Third example : investment \"backtesting\"<\/strong><\/h3>\r\nOften, when trying to design an investment strategy, analysts use past market data, be it price or fundamental data, and scrape this data to the bone in order to find <strong>the world most famous investment relation :<\/strong>\r\n\r\n<strong>\" If this happens at N, then price is up at N+1, then I get incredibly rich with no pain at N+2\"\r\n<\/strong>\r\n\r\nAnd they always find such a relation. Always. On paper. They are all <strong>looking for the investment martingale<\/strong> ( don't waste your time and your money this relation does not exists, investment is hard, never gets easier and requires hard work and patience ).\r\n\r\nBut when they decide to test this in real life ( and I must confess I did ! ) it does not work and they lose money ( and I did, but this is how you learn in the market ).\r\n\r\nOK but why are those errors ?\r\n<h2>So what is really this damn data-mining bias you are winning about ?<\/h2>\r\n<strong>Data-mining<\/strong> is scraping large amount of data in order to find useful information.\r\n\r\n<strong>Data-mining *bias* is the error to believe that everything you find while data-mining is significant (i.e. non completely pure luck )\r\n<\/strong>\r\n\r\n<strong>The thing is : if you have enough data you will always find \"something\".<\/strong> This is statistical truth, not opinion. Maths. There is always someone wining the national lottery. Even if the return distribution is absolutely random, if you try long enough, a very improbable event will happen. There will be a lottery winner, or <strong>you will find a correlation that very much looks like not random<\/strong>.\r\n\r\nThis video shows a very classical \"Galton board\" which is the best way to image the normal distribution.\r\n\r\nhttps:\/\/www.youtube.com\/watch?v=Kq7e6cj2nDw\r\n\r\nAs you can see, there are always balls falling to the extremity of the board. It is very improbable but it happens every time because there is so many balls falling. So if you look at those \"extreme\" balls only, without looking at the rest, you might want to say : \"this cannot be random, there is something wrong with the board\".\r\n\r\nThe <strong>main fallacy<\/strong> of the data mining bias is to believe this :\r\n\r\n<strong>\"If it is very improbable, and still happens, then it is not random\"<\/strong>\r\n\r\nAnother good example would be the Nostradamus book's prophecy trick : if you put all letter of a book in a matrix for each page and search for words in all directions you will end up with a colossal number of words from which you can choose. Here is an example below:\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><img class=\"aligncenter size-medium wp-image-555\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/06\/matrix1-300x296.jpg\" alt=\"\" width=\"300\" height=\"296\" \/><\/span><\/p>\r\nThis is \"supposedly\" a single page from the bible from which a especially creative conspirationist (not me) found \"hidden\" names. The fact that those very related words are available on the same page is very improbable indeed, however this is pure luck. If you take enough bible pages and analyze them this way you WILL find something that might look like this. <strong>There is just so many possible word combinations that it will happen.<\/strong>\r\n\r\nIf, at the opposite, you try to look for a very specific text on one page you will probably never find it, because it is actually almost pure randomness.\r\n\r\nRandomness is often very badly understood. <strong>In fact randomness can and must look very very much not random<\/strong>. The best illustration of this is this classic test:\r\n\r\n<strong>If you were asked to artificially create a \"totally random\" series of 1.000 head or tails flipping results<\/strong>, you will probably do a very poor job at it (so would I). Noticeably there is a good chance that you will fail to put long enough series of same side flips ( for example 4, 5 or 6 tails in a row), because it will look very NOT random to you.\r\n\r\nBut it will happen. Statistically if the series is really random it will happen and you should insert long series of same side flips.\r\n<h2>Data-mining bias is fueled by 2 errors<\/h2>\r\nThe data-mining bias is actually very closely linked to 2 other very important cognitive biases that you should be aware of :\r\n\r\n<strong>1 - Confusion between correlation and causality<\/strong>. Series of data that are correlated together in a data set can actually have no real world link between them. Correlation that are purely the result of random noise in the data are called \"spurious correlations\".\r\n\r\nBut been correlated does not mean that there is a real-world link, a \"causality\", that will hold in other data sets (the future notably). A link that says and verifies : if A goes up then B will go up too in the future\".\r\n\r\nIf you want good and fun examples of this you can go there. A website gathering <strong><a href=\"http:\/\/www.tylervigen.com\/spurious-correlations\">spurious correlations<\/a> that are completely absurd. <\/strong>You will learn for example how US deaths by steam and hot objects used to be strongly correlated with the age of miss America...<strong>\r\n<\/strong>\r\n\r\n<strong>2 - Confirmation bias<\/strong>,\u00a0is even more disturbing : it consists in unconsciously ( if it consciously then it is pure dishonesty and not a bias ) <strong>discarding any evidence that is not supporting your preconceived opinion<\/strong> and only keeping evidence that match what you want to find.\r\n\r\nThink about it when you search something backing your opinion though a Google search in order to prove your mother-in-law that she is wrong. You will have a natural tendency to overlook the links whose title don't match your opinion and go directly to links that do. But she IS wrong right ?\r\n<h2>So what can I do to prevent this ?<\/h2>\r\nWell first, you have to be aware of it. This should be okay now that you thoroughly read this post (thanks!).\r\n\r\nSecond, and following this, you should <strong>keep extremely prudent when analyzing large data set or listening to studies that analyzed large data set<\/strong>. Keep in mind that you could be fooled by others as well as by yourself.\r\n\r\nLast you should always <strong>check your finding through what is called \"out of sample analysis\"<\/strong>. The logic of this is to search for correlations, times-series, well any kind of relation that might have value for you in one limited set of data, but to always <strong>verify that it stands in another, totally separate set of data.<\/strong>\r\n\r\nFor time-series this would mean something like \"if I found that the growth of American beaver population has grown alongside the number of car sold in Japan from 1980 to 1990, did that relation hold during the next 10 years ?\".\r\n\r\nThis will in most case show you that it does not stand the test of time. But sometimes it will and you might then have found something interesting.\r\n\r\n&nbsp;\r\n<p style=\"text-align: justify;\"><\/p>","_en_post_name":"beware-of-the-vicious-data-mining-bias","_en_post_excerpt":"","_en_post_title":"Beware of the vicious data-mining bias !","_fr_post_content":"<p style=\"text-align: justify;\"><span style=\"font-size: 10pt;\"><a href=\"https:\/\/kudueconomics.eu\/beware-of-the-vicious-data-mining-bias\"><em>Read this post in english<\/em><\/a><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span style=\"color: #993300;\"><strong><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\">L'analyse de grandes quantit\u00e9s de donn\u00e9es peut vous conduire \u00e0 une grave erreur. <\/span><\/strong><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><strong><span class=\"\" style=\"color: #993300;\">Voici pourquoi, et comment vous en pr\u00e9server.<\/span><span class=\"\">\r\n<\/span><\/strong><\/span><\/span><\/p>\r\n<img class=\"aligncenter size-medium wp-image-592\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/07\/Image13-large-300x300.jpg\" alt=\"\" width=\"300\" height=\"300\" \/>\r\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Dans mon r\u00e9cent \"quiz\" parlant de technologie, j'ai mentionn\u00e9 que d\u00e9nicher des donn\u00e9es exploitables enfouies sous des montagnes de donn\u00e9es inutiles, cette activit\u00e9 que l'on nomme dans la jargon \"data-mining\", constituait un parfait domaine d'application pour l'intelligence artificielle et en particulier pour les r\u00e9seaux neuronaux.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><span style=\"text-decoration: underline;\">Mais<\/span> j'ai \u00e9galement mentionn\u00e9 que <strong>cette activit\u00e9 pouvait conduire \u00e0 une \u00e9norme erreur<\/strong>, \u00e0 un biais logique dont nous devons tous nous m\u00e9fier.<\/span> <span class=\"\">Ce biais, que l'on peut appeler sans surprise \u00ab<em>le data-mining bias<\/em>\u00bb (pas de traduction fran\u00e7aise correcte), est ce dont je souhaite parler aujourd'hui.<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Parlons donc de cet effrayant biais !<\/span><\/p>\r\n<!--more-->\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Celui-ci, de part son nom anglais barbare et son\u00a0 lien s\u00e9mantique avec l'informatique <strong>peut sembler quelque chose de tr\u00e8s technique et qui ne peut donc concerner que les geeks. Mais ce n'est pas le cas du tout!<\/strong> C'est une erreur tr\u00e8s commune \u00e0 laquelle tout le monde est confront\u00e9 r\u00e9guli\u00e8rement. Vous, moi, tout le monde.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Rappelons n\u00e9anmoins que le <strong>processus d'exploration syst\u00e9matique de grandes quantit\u00e9s de donn\u00e9es reste une m\u00e9thode parfaitement valid<\/strong>e qui consiste \u00e0 extraire de ces donn\u00e9es, \u00e0 priori sans int\u00e9r\u00eat, des corr\u00e9lations, des s\u00e9ries temporelles, des tendances, des similitudes... \"Bien pratiqu\u00e9\", avec prudence et rigueur, cette m\u00e9thode peut en effet conduire \u00e0 des d\u00e9couvertes utiles.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Mais elle peut aussi conduire \u00e0 une grosse erreur<\/strong>. Voici pourquoi.<\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 14pt; color: #993300;\" tabindex=\"-1\">Mais d'abord, illustrons-la.<\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Voici donc quelques e<span class=\"\">xemples concrets pour illustrer ce probl\u00e8me et comprendre pourquoi vous devriez lire la fin de cet article !<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong><span class=\"\">Premier exemple: <\/span>le sensationnalisme journalistique<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">Les journalistes ont besoin de nous faire peur, ils ont besoin de nous faire croire tous les jours que quelque chose m\u00e9rite d'\u00eatre imprim\u00e9.<\/span> Parfois, c'est vrai, mais parfois ce n'est pas vrai du tout.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Et cela se remarque particuli\u00e8rement lorsqu'ils relatent, \u00e0 titre d'exemple parmi tant d'autres, des <strong>conditions m\u00e9t\u00e9orologiques \u00abextr\u00eames\u00bb<\/strong>.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">C'est en effet un sujet dans lequel ils sont tr\u00e8s souvent les victimes plus ou moins consentantes du biais tant redout\u00e9.<\/span> <span class=\"\">Pour faire les gros titres, <strong>ils creusent dans l'histoire ou la g\u00e9ographie jusqu'\u00e0 ce qu'ils trouvent quelque chose<\/strong> \u00e0 comparer avec les conditions m\u00e9t\u00e9orologique actuelles et nous effrayer de la sorte : \"Nous vivons un moment historique de froid intense et dangereux\".<\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span class=\"\"> La preuve: \"il n'a jamais fait aussi<\/span><span class=\"\"> froid dans ce d\u00e9partement un 17 novembre depuis 23 ans. Nous sommes tous condamn\u00e9s!\".<\/span><\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span title=\"This is &quot;data-mining bias &quot; 101. I you are a journalist stop doing that.\">Voil\u00e0 un illustration parfaite du biais de \"<em>data-mining<\/em>\". Si vous \u00eates journaliste arr\u00eater de faire cela s'il vous plait. <\/span><span title=\"Stop scraping historical data to find anything that might make present spectacular when it is really not.\"><strong>Arr\u00eatez de creuser les donn\u00e9es historiques ou g\u00e9ographiques jusqu'\u00e0 trouver quelque chose qui pourrait rendre spectaculaire ce qui ne l'est pas<\/strong>. Il fait froid en hiver et chaud en \u00e9t\u00e9<\/span><span title=\"Extreme weather happens, it is normal.\">, c'est normal. <\/span><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><span title=\"It might indeed happen more often than normal recently due to global warming, true, but a single event is not enough to prove anything about it.\">Bien s\u00fbr il est clair que cela se produit plus souvent que la normale en raison du changement climatique, c'est vrai, mais un seul \u00e9v\u00e9nement ne suffit pas \u00e0 prouver quoi que ce soit \u00e0 ce sujet, et alimenter la peur \u00e0 ce sujet n'est pas sain.<\/span><\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"And this is of course not limited to weather reports: crime rates growing, bloated immigration numbers, number of shark attacks... Anything that might scare the public is potentially subject to the bias. \"><strong>Et ceci n'est bien s\u00fbr pas limit\u00e9 aux bulletins m\u00e9t\u00e9orologiques.<\/strong> Cette erreur se retrouve sur d'autres sujets comme la croissance des taux de petite d\u00e9linquance dans des quartiers \u00e9troits (\"significatifs\" d'une hausse g\u00e9n\u00e9rale du crime), des chiffres d'immigration depuis un pays particulier et sur une p\u00e9riode courte, nombre d'attaques de requins sur une plage au plus haut depuis 20 ans... Tout ce qui peut effrayer le public par un chiffre cl\u00e9 est potentiellement sujet au biais.<\/span><\/span><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Deuxi\u00e8me exemple: corr\u00e9lations m\u00e9dicales \u00e9tranges<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"We can often hear about &quot;medical studies&quot; that &quot;prove&quot; that consuming a certain product give you a high correlation of dying in horrible pain or at the contrary to get younger and even more handsome.\">On entend souvent parler d'\u00ab\u00e9tudes m\u00e9dicales\u00bb qui \u00abprouvent\u00bb que consommer un certain produit vous donne une forte chance de mourir dans d'horribles souffrances ou au contraire de devenir plus jeune et encore plus beau. <\/span><span title=\"They always seem very surprising, even weird relations that are found by an obscure research team on very specific subsets of data. \">Ces \u00e9tudes, toujours tr\u00e8s surprenantes, proviennent parfois de \"chercheurs am\u00e9ricains\" (les meilleurs !), et <strong>exposent des relations \u00e9tranges sur des sous-ensembles de donn\u00e9es tr\u00e8s sp\u00e9cifiques<\/strong>.<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"To be perfectly honest, as I am not being naive here, most of those studies are actually lobby financed of course, and while they might actually find data that &quot;prove&quot; what they want to prove, they are dishonest as they know that this does\">Pour \u00eatre tout \u00e0 fait honn\u00eate, car je ne suis pas compl\u00e8tement na\u00eff, la plupart de ces \u00e9tudes sont financ\u00e9es par des <em>lobbys<\/em> et bien qu'elles puissent effectivement trouver des donn\u00e9es qui \u00abprouvent\u00bb ce qu'elles veulent prouver, elles sont malhonn\u00eates car elles savent que cela <\/span><span title=\"not prove much and hide it. \">ne prouve pas grand chose et se gardent bien de vous le dire.<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"Here is a textbook example of this : how coffee can make you live longer !\">Voici un exemple typique de ceci: <a href=\"https:\/\/edition.cnn.com\/2017\/07\/10\/health\/coffee-leads-to-longer-life-studies-reaffirm\/index.html\">comment le caf\u00e9 peut vous faire vivre plus longtemps!<\/a><\/span> ( en anglais ).<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">En voici un autre: il y a quelques jours, ma femme a essay\u00e9 de me convaincre que je devais arr\u00eater ma consommation d'une petite bi\u00e8re en rentrant le soir avant le diner. Mais ce qu'elle a trouv\u00e9 en premier lien sur Google ne lui a pas du tout plu puisqu'elle est tomb\u00e9e sur \u00e0 une campagne financ\u00e9e par un groupement de brasseurs relatant une \u00e9tude qui \u00abprouvait\u00bb que la bi\u00e8re \u00e9tait bonne pour la sant\u00e9... ceci en suivant l'am\u00e9lioration d'une <strong>caract\u00e9ristique m\u00e9dicale bien particuli\u00e8re, dans un groupe ethnique bien particulier et sur une p\u00e9riode bien particuli\u00e8re<\/strong>...<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">J'ai l\u00e2chement, avec hypocrisie, essay\u00e9 d'utiliser cette \"\u00e9tude\" pour valider mon vice, mais elle n'a pas \u00e9t\u00e9 dupe. Elle a naturellement et intuitivement d\u00e9busqu\u00e9 le biais de \"<em>data-mining<\/em>\" qui n'\u00e9tait pas si subtilement cach\u00e9 dans les r\u00e9sultats de l'\u00e9tude.<strong> Je n'ai plus le droit \u00e0 ma bi\u00e8re du soir.<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><strong>Observez comment ces \u00e9tudes se limitent \u00e0 des \u00e9chantillons tr\u00e8s sp\u00e9cifiques<\/strong>... c'est ainsi que vous pouvez d\u00e9tecter ce biais, volontaire ou non.<\/span> E<span class=\"\">n limitant les \u00e9chantillons et en les s\u00e9parant en sous-ensembles se recoupant selon de nombreux crit\u00e8res, <strong>vous cr\u00e9er de nombreuses \"observations\" diff\u00e9rentes sur les m\u00eames donn\u00e9es<\/strong> et vous avez alors une tr\u00e8s bonne probabilit\u00e9 de trouver ce que vous voulez trouver.\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">En faisant le tour d'une droite dans l'espace il y un moment ou vous pourrez dire que vu sous cet angle elle ressemble \u00e0 un point. Cela n'en fera pas un point pour autant !<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><strong>Troisi\u00e8me exemple: le test historique de strat\u00e9gie d'investissement ou \"backtesting\"<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Souvent, en essayant de concevoir une strat\u00e9gie d'investissement, les analystes financiers utilisent les donn\u00e9es de march\u00e9 pass\u00e9es, que ce soit des donn\u00e9es de prix ou fondamentales, et creusent ces donn\u00e9es dans l'espoir de trouver la <strong>relation d'investissement la plus c\u00e9l\u00e8bre au monde<\/strong>:<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>\"Si ceci se produit en un instant N, alors le prix de cette action sera \u00e0 la hausse en N + 1, et je serais incroyablement riche \u00e0 l'instant N + 2.\"<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Et ils trouvent toujours une telle relation. Toujours. Sur le papier. <strong>Ils recherchent tous la martingale de l'investissement<\/strong> (ne perdez pas votre temps et votre argent cette relation n'existe pas, l'investissement est difficile, ne devient jamais plus facile et exige beaucoup de travail et de patience).<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\">Mais quand ils d\u00e9cident de tester cela dans la vraie vie (et je dois avouer que je l'ai fait!), cela ne fonctionne pas et ils perdent de l'argent (et j'en ai perdu, mais c'est ainsi qu'on apprend sur les march\u00e9s).<\/span><span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\"><\/span><\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span style=\"font-size: 14pt; color: #993300;\">Tr\u00e8s bien tout \u00e7\u00e0, mais au final c'est quoi ce biais ?<\/span>\r\n<\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><strong>La m\u00e9thode statistique dit de \"data-mining\"<\/strong> consiste \u00e0 traiter automatiquement d'\u00e9normes quantit\u00e9s de donn\u00e9es afin de d\u00e9nicher des informations utiles et <strong>statistiquement significatives<\/strong> (ce qui est une notion math\u00e9matique bien d\u00e9finie).<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span class=\"\"><strong>Le biais de \"data-mining\" est l'erreur de croire que tout ce que vous trouvez pendant une recherche selon cette m\u00e9thode est significatif<\/strong> (c'est-\u00e0-dire non uniquement du \u00e0 la chance)<\/span>.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Car il faut bien comprendre la chose suivante: si vous avez assez de donn\u00e9es, et si vous observez ces donn\u00e9es de suffisamment de mani\u00e8res diff\u00e9rentes (des \"observations\" ) <strong>vous trouverez toujours \"quelque chose\"<\/strong>. Ceci une v\u00e9rit\u00e9 statistique, ce n'est pas une opinion. C'est math\u00e9matique.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span class=\"\">Il y a toujours quelqu'un qui gagne au loto.<\/span> M\u00eame si la distribution des tirages est absolument al\u00e9atoire, si vous essayez assez longtemps, ou si suffisamment de personnes jouent, un \u00e9v\u00e9nement tr\u00e8s improbable se produira:\u00a0 i<span class=\"\">l y aura un gagnant au loto.\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span class=\"\" style=\"font-size: 12pt;\">Prenons un autre exemple : cette vid\u00e9o illustre l'utilisation d'un \"tableau de Galton\". Ce jeu scientifique classique est le meilleur moyen d'exp\u00e9rimenter visuellement la distribution normale, ou en langage plus classique \"la th\u00e9orie des grands nombres\".\r\n<\/span><\/p>\r\nhttps:\/\/www.youtube.com\/watch?v=Kq7e6cj2nDw\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Comme vous pouvez le voir, il y a toujours des billes qui tombent aux extr\u00e9mit\u00e9s du plateau. C'est tr\u00e8s improbable mais \u00e7a arrive \u00e0 chaque fois car il y a tellement de billes qui tombent que c'est in\u00e9vitable.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Le risque est le suivant : si vous regardez uniquement ces billes \"extr\u00eames\" sans regarder le reste, vous pourriez \u00eatre tent\u00e9s de penser : \"cela ne peut pas \u00eatre al\u00e9atoire, il y a quelque chose qui ne va pas avec la planche\".<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">La principale erreur du biais de \"data-mining\" est de croire ceci:<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>\"Si c'est tr\u00e8s improbable, mais se produit quand m\u00eame, alors ce n'est pas al\u00e9atoire\"<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Un autre bon exemple serait le tour de la proph\u00e9tie des livres de Nostradamus: si vous mettez toutes les lettres d'un livre dans une matrice carr\u00e9e pour chaque page et que vous cherchez des mots dans toutes les directions, vous vous retrouverez avec un nombre colossal de mots parmi lesquels vous pourrez choisir.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">Voici un exemple ci-dessous:<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><img class=\"aligncenter size-medium wp-image-555\" src=\"https:\/\/kudueconomics.eu\/wp-content\/uploads\/2018\/06\/matrix1-300x296.jpg\" alt=\"\" width=\"300\" height=\"296\" \/><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"This is &quot;supposedly&quot; a single page from the bible from which a especially creative conspirationist (not me) found &quot;hidden&quot; names.\">Cette image pr\u00e9tend repr\u00e9senter une page de la Bible \u00e0 l'int\u00e9rieur de laquelle un conspirationniste particuli\u00e8rement cr\u00e9atif (pas moi) aurait trouv\u00e9 des noms \"cach\u00e9s\". <\/span><span title=\"The fact that those very related words are available on the same page is very improbable indeed, however this is pure luck (malversation?).\">Le fait que ces mots tr\u00e8s apparent\u00e9s soient disponibles sur la m\u00eame page est certes extr\u00eamement improbable, <strong>mais cela reste du pur hasard, ne vous y trompez pas.<\/strong><\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"If you take enough bible pages and analyze them this way you WILL find something that might look like this.\">Si vous prenez suffisamment de pages de livres et les analysez de cette fa\u00e7on (automatiquement, des logiciels existent pour cela), vous aurez de tr\u00e8s bonnes chances d'arriver \u00e0 un r\u00e9sultat similaire.\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"If, at the opposite, you try to look for a very specific text on one page you will probably never find it, because it is actually almost pure randomness. \">Si, au contraire, vous essayez de chercher un texte tr\u00e8s sp\u00e9cifique sur une page, vous ne le trouverez tr\u00e8s probablement jamais.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"Randomness is often very badly understood.\">Le fait est que la notion de hasard est souvent mal comprise. <\/span><span title=\"In fact randomness can look very very much not random.\">En fait, <strong>un ph\u00e9nom\u00e8ne parfaitement al\u00e9atoire peut et doit sous certains angles paraitre tr\u00e8s peu al\u00e9atoire<\/strong>. <\/span><span title=\"The best illustration of this is this classic test: \">La meilleure illustration de ceci est cette exp\u00e9rience classique :<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"If you were asked to artificially create a &quot;totally random&quot; series of 1.000 head or tails flipping results, you will probably do a very poor job at it (so do I).\">Si l'on vous demandait de cr\u00e9er artificiellement, sur le papier, le <strong>r\u00e9sultat d'une s\u00e9rie \u00abtotalement al\u00e9atoire\u00bb de 1.000 tirages de pile ou face<\/strong>, vous auriez bien du mal \u00e0 la faire ( tout comme moi ). <\/span><span title=\"Noticeably there is a good chance that you will fail to put long enough series of same side flips ( for example 4, 5 or 6 tails in a row), because it will look very NOT random to you. \">En particulier il y a de fortes chances que votre s\u00e9rie ne contienne pas assez de s\u00e9ries longues de tirages du m\u00eame cot\u00e9 (par exemple 4, 5 ou 6 pile d'affil\u00e9e), car cela ne vous para\u00eetrait \"pas assez al\u00e9atoire\".<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"But it will happen.\">Mais cela arrivera en r\u00e9alit\u00e9. <\/span><span title=\"Statistically if the series is really random it will happen and you should insert long series of same side flips.\">Statistiquement, si la s\u00e9rie de tirage \u00e0 pile ou face est vraiment al\u00e9atoire, des s\u00e9ries longues du m\u00eame cot\u00e9 doivent se produire.<\/span><\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Data-mining bias is fueled by 2 errors \"><span style=\"font-size: 14pt; color: #993300;\">Ce biais est aliment\u00e9 par 2 erreurs<\/span>\r\n<\/span><\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"The data-mining bias is actually very closely linked to 2 other very important cognitive biases that you should be aware of : \">Le biais de \"<em>data-mining<\/em>\" est en r\u00e9alit\u00e9 tr\u00e8s \u00e9troitement li\u00e9 \u00e0 deux autres biais cognitifs tr\u00e8s importants dont vous devez \u00eatre conscients:<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"1 - Confusion between correlation and causality.\">1 - <strong>Confusion entre la corr\u00e9lation et la causalit\u00e9:<\/strong><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Series of data that are correlated together in a data set can actually have no real world link between them.\">Deux s\u00e9ries de donn\u00e9es qui sont <span style=\"text-decoration: underline;\">corr\u00e9l\u00e9es<\/span> ensemble dans un \u00e9chantillon de donn\u00e9es peuvent en fait n'avoir aucun lien r\u00e9el entre elles. <\/span><span title=\"Correlation that are purely the result of random noise in the data are called &quot;spurious correlations&quot;. \">Les corr\u00e9lations qui sont purement le r\u00e9sultat d'un bruit al\u00e9atoire dans les donn\u00e9es ont un nom et sont ainsi appel\u00e9es <em>spurious correlation<\/em> ou \"correlation parasite\" en fran\u00e7ais approximatif (encore une fois pas vraiment de traduction).\r\n<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"But been correlated does not mean that there is a real-world link, a &quot;causality&quot;, that will hold in other data sets (the future notably).\"><strong>Mais \u00eatre corr\u00e9l\u00e9 dans un s\u00e9rie de donn\u00e9e ne signifie pas qu'il y ait un lien r\u00e9el, une <span style=\"text-decoration: underline;\">\"causalit\u00e9\"<\/span>, qui va donc se reproduire dans d'autres ensembles de donn\u00e9es<\/strong>. <\/span><span title=\"A link that says and verifies : if A goes up then B will go up too in the future&quot;. \">Un lien qui dit et v\u00e9rifiera \u00e0 l'avenir : si \"A monte, B va monter aussi\".<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><span title=\"If you want good and fun examples of this you can go there.\">Pour quelque exemples amusant de ceci je vous conseille d'<strong>aller regarder rapidement <a href=\"http:\/\/www.tylervigen.com\/spurious-correlations\">ce site<\/a> d\u00e9di\u00e9 au probl\u00e8me<\/strong>. <\/span><span title=\"A website gathering spurious correlations that are completely absurd. \">Vous y apprendrez par exemple que le nombre de morts par jets de vapeurs et brulures par objet chaud au Etats-Unis (je l'invente pas) a ainsi \u00e9t\u00e9 tr\u00e8s fortement corr\u00e9l\u00e9 (87%) \u00e0 l'age de Miss America entre 1999 et 2009...<\/span><\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\" title=\"2 - Confirmation bias, is even more disturbing : it consists in unconsciously ( if it consciously then it is pure dishonesty and not a bias ) discarding any evidence that is not supporting your preconceived opinion and only keeping evidence that match what you want to find. \">2 - <strong>Le biais de confirmation<\/strong> est lui encore plus d\u00e9rangeant, bien que largement r\u00e9pandu: il consiste \u00e0 inconsciemment ( si c'est consciemment alors c'est de la malhonn\u00eatet\u00e9 pure et non un biais ) rejeter toute preuve qui ne va pas dans le sens de notre opinion pr\u00e9con\u00e7ue. <strong>Nous ne conservons alors que les arguments et\u00a0 preuves correspondants \u00e0 ce que nous voulons trouver<\/strong>. Nous sommes naturellement pouss\u00e9s \u00e0 confirmer notre opinion plut\u00f4t qu'\u00e0 changer d'avis et par cons\u00e9quent \u00e0 creuser dans les donn\u00e9es pour d\u00e9nicher cette confirmation.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\"><span title=\"Think about it when you search something backing your opinion though a google search.\">Pensez-y la prochaine fois que vous rechercherez sur Google quelque chose pour prouver <span id=\"result_box\" class=\"\" lang=\"fr\" tabindex=\"-1\">\u00e0 votre belle-m\u00e8re<\/span> que vous avez raison. <\/span><span title=\"You will have a natural tendency to overlook the links whose title don't match your opinion and go directly to links that do.\">Vous aurez une tendance naturelle \u00e0 n\u00e9gliger les liens dont le titre ne correspond pas \u00e0 votre opinion et \u00e0 aller directement aux liens qui vous semblent \"rationnels et s\u00e9rieux\". Mais bon elle a tors non ?\r\n<\/span><\/span><\/p>\r\n\r\n<h2 style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 14pt; color: #993300;\" tabindex=\"-1\">Tr\u00e8s bien, que puis-je faire pour \u00e9viter ce biais ?<\/span><\/h2>\r\n<p style=\"text-align: justify;\"><span id=\"result_box\" class=\"\" lang=\"fr\" style=\"font-size: 12pt;\" tabindex=\"-1\">\r\nEt bien d'abord, <strong>vous devez en \u00eatre conscient.<\/strong> Cela devrait aller maintenant que vous avez lu cet article jusqu'\u00e0 ce point. Mais n'oubliez pas ce concept \u00e0 l'avenir.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Ensuite, vous devez <strong>rester extr\u00eamement prudent d\u00e9s lors que vous \u00eates face \u00e0 une analyse bas\u00e9e sur un ensemble tr\u00e8s large de donn\u00e9es<\/strong>. Gardez \u00e0 l'esprit que vous pouvez \u00eatre dup\u00e9 par d'autres autant que par vous-m\u00eame!<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Enfin, vous devriez<strong> toujours essayer de v\u00e9rifier les r\u00e9sultats de ces \u00e9tudes par la m\u00e9thode qu'on appelle <em>out-of-sample analysis<\/em> ou \"analyse hors-\u00e9chantillon<\/strong>\". La logique de cette m\u00e9thode est de rechercher des corr\u00e9lations, des s\u00e9ries chronologiques, ainsi que tout type de relation qui pourrait avoir une valeur pour vous dans un ensemble pr\u00e9cis de donn\u00e9es, mais de toujours v\u00e9rifier la validit\u00e9 des r\u00e9sultats dans <strong>un autre ensemble de donn\u00e9es<\/strong> totalement s\u00e9par\u00e9.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\">Pour les s\u00e9ries chronologiques, cela signifierait quelque chose comme \u00absi je d\u00e9couvre que la croissance de la population de castors am\u00e9ricains a augment\u00e9 parall\u00e8lement au nombre de voitures vendues au Japon entre 1980 et 1990, cette relation a elle persist\u00e9 au cours des 10 ann\u00e9es suivantes ?<\/span><\/p>\r\n<p style=\"text-align: justify;\"><span style=\"font-size: 12pt;\"><strong>Dans bien des cas cela prouvera qu'il n'y a en fait aucune relation entre ces deux ph\u00e9nom\u00e8nes<\/strong> ( d\u00e9sol\u00e9 de vous d\u00e9cevoir ), mais de temps en temps la relation sera confirm\u00e9e, et l\u00e0 vous pourrez, avec prudence, commencer \u00e0 tirer des conclusions int\u00e9ressantes.<\/span><\/p>\r\n<p style=\"text-align: justify;\"><\/p>","_fr_post_name":"prenez-garde-au-biais-qui-vous-guette","_fr_post_excerpt":"","_fr_post_title":"Prenez garde au biais qui vous guette !","edit_language":"fr","footnotes":""},"categories":[15],"tags":[],"class_list":["post-549","post","type-post","status-publish","format-standard","hentry","category-analytics"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/posts\/549","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/comments?post=549"}],"version-history":[{"count":36,"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/posts\/549\/revisions"}],"predecessor-version":[{"id":667,"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/posts\/549\/revisions\/667"}],"wp:attachment":[{"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/media?parent=549"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/categories?post=549"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/kudueconomics.eu\/fr\/wp-json\/wp\/v2\/tags?post=549"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}