Facture vers Excel et Sage: ce qu'une OCR doit vraiment lire sur une facture TVA française
Une facture française n'est pas une facture américaine traduite. Il y a une grammaire précise: un numéro de TVA intracommunautaire côté fournisseur, un autre côté client, un HT et un TVA par taux qui doivent boucler sur le TTC, et souvent deux formats de remise différents sur la même page. Un expert-comptable qui saisit ça à la main le sait. Une OCR qui prétend "lire les factures" doit le savoir aussi.
Cette page est une lecture directe d'une vraie facture TVA française. On la regarde champ par champ, on vérifie l'arithmétique HT plus TVA égal TTC, et on dit ce qui passe et ce qui demanderait un coup d'oeil. Ensuite on parle de la sortie qui va dans Sage (et de la variante pour Cegid, EBP, ou QuickBooks au Québec).
La facture testée
Une facture émise par Biko Inc., 185 Rue de la Roquette, 75011 Paris, numéro de TVA FR2022050193, vers Acme SARL, 5 Rue Servient, 69003 Lyon, numéro de TVA FR2050137055. Facture numéro 202506-1042, émise le 9 juin 2025, échéance au 19 juillet 2025. Paiement à la livraison, deux articles de revente: une paire de Converse All Star taille 9 à 54,44 € HT unitaire avec une remise de 10%, et une paire de Ray-Ban Wayfarer (White) à 159,00 € HT avec une remise de 10,00 € en valeur. TVA à 19,6%. Total HT 198,00 €, TVA 38,81 €, TTC 236,81 €.
C'est une facture propre, imprimée, en français. Le genre de facture qu'un revendeur envoie tous les jours et qu'un cabinet rentre à la chaîne en mars. Si une OCR la rate, elle n'a aucune chance sur une facture floue d'artisan.
Les deux numéros de TVA, d'abord
Sur une facture française, le champ qui décide tout, c'est le numéro de TVA du fournisseur. La déductibilité de la TVA en amont en dépend. Une saisie qui se trompe sur ce numéro, ou pire qui ne le capture pas, oblige l'expert-comptable à le retaper en regardant le justificatif. C'est exactement le travail manuel qu'on essaie de tuer.
Sur notre lecture, les deux numéros sont sortis intacts: FR2022050193 côté Biko, FR2050137055 côté Acme. Pas de confusion entre les deux malgré leur proximité visuelle en haut de page. Pour un cabinet qui rentre ces factures dans Sage, c'est le seul résultat acceptable. Tout le reste se vérifie à l'oeil; un numéro de TVA faux passe inaperçu jusqu'à un contrôle.
Un point de vigilance qu'on ne va pas habiller: le format FRXXXXXXXXXXX est encadré (deux chiffres ou lettres de clé puis le SIREN à 9 chiffres). Une OCR qui inverse deux caractères au milieu rend un numéro qui ressemble à un vrai mais qui ne valide pas au VIES. La règle, peu importe l'outil: contrôler les numéros de TVA fournisseur des nouveaux comptes au moins une fois sur le portail VIES. La machine lit, vous validez la première fois, ensuite vous faites confiance.
HT, TVA, TTC: la boucle qui tient ou qui ne tient pas
La compta française se tient sur trois chiffres par facture: le total hors taxes, la TVA par taux, le total toutes taxes comprises. Si HT plus TVA ne fait pas TTC, la facture est mal saisie, point.
Sur la facture testée: 198,00 € HT plus 38,81 € de TVA à 19,6% égale 236,81 € TTC. Ça boucle. Les deux totaux lignes (49,00 € et 149,00 €) font bien 198,00 € HT. Une OCR qui rend ces chiffres en perdant la cohérence vous oblige à rouvrir la pièce, donc à perdre exactement le temps qu'on cherche à économiser.
Une remarque méthodo pour les comptables qui lisent ça: 19,6% n'est plus le taux normal courant en France (passé à 20% en janvier 2014), mais on continue à voir des factures historiques et certains pays ou régimes spéciaux à ce taux. Une OCR ne doit pas "corriger" 19,6% en 20% parce qu'elle a vu plus de 20% dans son entraînement. Elle doit rendre le taux écrit sur la facture. Sur notre test, le taux est ressorti à 19,6% comme écrit, pas réécrit. C'est le bon comportement.
La remise mixte, le piège silencieux
Voici la partie que la plupart des démos évitent. Sur la même facture testée, la ligne Converse a une remise de 10% (pourcentage), la ligne Ray-Ban a une remise de 10,00 € (valeur absolue). Deux formats différents sur la même page. Une OCR qui ne lit qu'un seul format va silencieusement écraser l'autre, et le HT final ne bouclera pas.
Notre lecture a gardé les deux formats distincts: "10%" pour la Converse, "10,00" pour la Ray-Ban, et les deux totaux ligne (49,00 € et 149,00 €) restent cohérents. C'est exactement le détail à demander à n'importe quel outil de capture: faites-lui passer une facture où l'une des lignes a une remise en pourcentage et la suivante en euros, et regardez si l'export ressort les deux. Beaucoup d'outils n'en sortent qu'un et arrondissent l'autre.
La sortie qu'attend Sage
Pour saisir un achat dans Sage Compta (ou Sage 50 / Sage Comptabilité Expert), il faut six choses par facture: le tiers fournisseur (avec son compte 401), la date de pièce, le numéro de pièce, le compte de charge ou d'immobilisation, la TVA déductible par taux (compte 44566 par défaut sur la TVA déductible sur autres biens et services à 20%), et le compte fournisseur en contrepartie.
L'export d'une OCR utile, c'est exactement ce tableau, prêt à coller dans le journal d'achats ou à importer via le format Sage. Pour la facture testée, ça donne une ligne unique de pièce avec:
- Tiers: Biko Inc. (FR2022050193), à rattacher au compte 401BIKO
- Date: 09/06/2025
- Pièce: 202506-1042
- Compte de charge: 607 (achats de marchandises) pour les Converse et Ray-Ban
- HT: 198,00 €
- TVA déductible 19,6%: 38,81 € sur le compte de TVA approprié
- TTC: 236,81 € au crédit du fournisseur
Pour Cegid Expert ou EBP Comptabilité, la même structure marche, le plan de comptes change et le format de fichier d'import est différent. Pour QuickBooks (le standard de fait au Québec et chez beaucoup de TPE françaises), l'export est adapté au format que la plateforme attend. Le travail d'OCR, lui, est identique d'un logiciel à l'autre. C'est la traduction des champs lus vers le format de chaque compta qui change, pas la lecture.
France métropolitaine et Québec sur la même page, pourquoi
On regroupe France métropole et Québec dans la même page parce que la structure logique d'une facture est la même: tiers, numéros de taxes, lignes, totaux par taux, total final. Ce qui change au Québec, c'est le couple TPS plus TVQ à la place de la TVA, et le dollar canadien à la place de l'euro. Les champs à lire sont identiques en nombre et en position, le mapping de sortie diffère (les comptes québécois pour la TPS et la TVQ sont distincts), et l'outil compta dominant est QuickBooks plutôt que Sage.
Un expert-comptable montréalais qui traite des factures à la pile a le même problème de fond qu'un cabinet parisien: les numéros de taxes en haut, les sous-totaux et taxes au milieu, le total en bas. La machine lit, l'humain vérifie les numéros de taxes la première fois, et le justificatif part en archive.
Le contexte concurrentiel, vite
Dext (anciennement Receipt Bank) et AutoEntry sont les deux outils OCR-vers-compta les plus installés en France, et tous deux appartiennent maintenant à Sage. Leur produit est compétent, et leur intégration native dans Sage est un argument de vente fort. Leur faiblesse historique, c'est qu'ils ont été conçus pour le marché britannique d'abord: l'UX française a été traduite plutôt que pensée nativement, et la prise en charge fine des cas français (remise mixte sur la même facture, justificatif manuscrit, ticket de caisse thermique d'un commerçant) est inégale.
Pour le Québec, QuickBooks Receipt Capture est l'équivalent intégré, avec les mêmes limites côté justificatifs hors-standard.
On n'a pas fait passer notre facture Biko dans Dext ou dans AutoEntry pour cette page, donc on ne publie pas de comparatif chiffré contre eux. Ce qu'on dit, on l'a lu nous-mêmes: les huit champs comptables d'une facture TVA française propre sortent intacts sur notre lecture, en moins de temps qu'il en faut à un comptable pour ouvrir l'image. C'est le standard à partir duquel un outil mérite ou pas qu'on le considère.
Pour les lecteurs qui viennent d'autres marchés
Le même argument tient sur d'autres bills étrangers. Voir la page espagnole équivalente pour les factures de España, du Mexique et du marché US-Hispanique, et le benchmark de précision sur bills indiens pour le cas indien des bills GST et des bills manuscrits. Le principe est partagé: lire les champs qui font la déductibilité d'abord, vérifier la boucle arithmétique, et sortir dans le format qu'attend la compta locale. Si vous avez essayé de coller des images de factures dans un chatbot grand public, lisez aussi pourquoi une OCR n'est pas un LLM avant de standardiser un workflow là-dessus.
La facture testée tient sur une page. Le travail qu'elle représente pour un cabinet, multiplié par les centaines de pièces d'un mois, est précisément le travail qui mérite d'être lu par une machine et vérifié par un humain, pas saisi à la main du premier au dernier caractère.