Advanced search in Research products
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
The following results are related to Digital Humanities and Cultural Heritage. Are you interested to view more results? Visit OpenAIRE - Explore.

  • Digital Humanities and Cultural Heritage
  • Publications
  • Research data
  • Other research products
  • English
  • Hal-Diderot

Date (most recent)
arrow_drop_down
  • image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    Authors: Guillaume, Maxime; Pogodalla, Sylvain; Tourneur, Vincent;

    Abstract categorial grammars (ACGs) is an expressive grammatical framework whose formal properties have been intensively studied. While it can provide its own account, as a grammar, of linguistic phenomena, it is known to encode several grammatical formalisms, such as context-free grammars, but also mildly context-sensitive formalisms such as tree-adjoining grammars or m-linear context-free rewriting systems for which parsing is polynomial. The ACG framework is based on a small set of mathematical primitives from type theory, λ-calculus, and linear logic. These primitives combine via simple composition rules, offering it flexibility.The ACG toolkit we present provides a compiler, acgc, that checks and turns ACGs into representations that are suitable for testing and parsing, used in the acg interpreter. We illustrate these functionalities and discuss implementation features, in particular the Datalog reduction on which parsing is based, and the magic set rewriting techniques that can further be applied. International audience

    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
  • image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    Authors: Abdoul Soukour, Shahin; Aboucaya, William; Georgantas, Nikolaos;

    KAOS is one of the most widely used Goal-Oriented Requirements Engineering (GORE) methods. The goal model is the central element of KAOS, employed to represent the goals of a system in the form of a hierarchy, where higher-level goals are refined into lower-level ones. The process of constructing a KAOS goal model for a new application can present challenges, requiring significant time and effort. Existing approaches have tried to partially automate the construction of goal models, however, this largely remains a complex, manual task. In this paper, we propose leveraging domain knowledge in the form of a Knowledge Graph (KG), which can assist the application designer in creating goals that are inspired from this knowledge. To accomplish this, we leverage semantic similarity measurement and Natural Language Inference (NLI) to effectively extract triples from the KG that are relevant to a high-level goal formulated by the designer. The extracted triples are further processed through sentiment analysis and graph-to-text generation, before presented to the designer. Via step-by-step interaction with our solution, the designer can gradually refine their initial goals into a goal hierarchy. We perform an empirical evaluation of our approach by applying it to the design of a flood management system, based on a handcrafted domain KG. International audience

    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
  • Authors: Aboucaya, William;

    Les plates-formes participatives en ligne sont devenues un moyen courant d'impliquer les citoyens dans la prise de décision publique, permettant une participation à plus grande échelle que leurs homologues hors ligne, à la fois en termes de nombre de participants et de répartition géographique. Cependant, le terme ``plateforme participative'' recouvre un large éventail de systèmes extrêmement différents, ce qui implique des différences dans les problèmes rencontrés par les administrateurs et les contributeurs des plateformes. Plus précisément, ces plateformes font face à des problèmes spécifiques lorsqu'elles visent à permettre aux citoyens de collaborer pour produire des contributions communes ou lorsque le nombre de contributeurs impliqués devient particulièrement élevé. Cette recherche doctorale vise à identifier les problèmes des plateformes de participation citoyenne contemporaines et à proposer des moyens techniques pour créer des plateformes participatives plus collaboratives et adaptées à une participation à grande échelle. Ma thèse s'appuie principalement sur des travaux antérieurs réalisés dans les champs de la recherche en informatique que sont le travail collaboratif assisté par ordinateur (CSCW) et le traitement du langage naturel (NLP).Les contributions de cette thèse sont : l'identification des biais d'une plateforme participative spécifique et la recommandation d'alternatives centrées sur la conception de la plateforme pour les résoudre ; la représentation d'une plateforme participative sous la forme d'un graphe de connaissances (knowledge graph) et son enrichissement à partir d'une base de connaissances externe préexistantes ; l'identification des différents objectifs motivant la création de plateformes participatives et des différents types de fonctionnalités d'interaction mises en œuvre à partir d'une série d'entretiens ; la conception et la mise en œuvre d'une méthode basée sur l'inférence en langage naturel pour réduire les problèmes rencontrés par la participation citoyenne en ligne lorsque le nombre de contributeurs devient particulièrement élevé. Online participatory platforms have become a common means to involve citizens in public decision-making, allowing for participation at a larger scale than their offline counterparts, both in the number of participants and in the geographical distribution. However, the term ``participatory platform'' covers a wide range of extremely different systems, implying differences in the problems encountered by platforms administrators and contributors. More precisely, such platforms face specific issues when they aim at allowing citizens to collaborate to produce common contributions or when the number of contributors involved becomes particularly high. This Ph.D. research aims at identifying issues in contemporary online citizen participation platforms and proposing technical means to create participatory platforms more collaborative and suitable for large-scale online participation. My thesis is mainly based on previous works produced in the Computer-Supported Collaborative Work (CSCW) and Natural Language Processing (NLP) fields of computer science research.The contributions of this thesis are: the identification of flaws in a specific citizen participation platform and the recommendation of platform design-oriented alternatives to solve them; the representation of a participatory platform as a knowledge graph and its enrichment using a preexisting external knowledge base; the identification of the different objectives motivating the creation of participatory platforms and of the different types of features for interaction implemented based on a series of interviews; the conception and implementation of a Natural Language Inference-based method to reduce issues faced by online citizen participation when the number of contributors becomes particularly high.% Based on these contributions, I also propose a new workflow for online citizen participation to solve the different issues identified at large scale and improve collaboration between citizens.

    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Mentec, François;

    Le recrutement a toujours été une tâche cruciale pour la réussite des entreprises, notamment pour les entreprises de services pour lesquelles l’embauche est un élément central de leur modèle commercial. La croissance du marché du travail ainsi que l’augmentation du nombre de compétences spécialisées requises par les entreprises ont motivé l’exploration de techniques pour optimiser et même automatiser certaines parties du processus de recrutement.Les nombreux progrès réalisés dans les domaines de l’intelligence artificielle et du traitement automatique du langage naturel au cours des dernières décennies ont offert la possibilité de traiter efficacement les données utilisées lors du recrutement.Nous examinons l’utilisation d’un système de recommandation d’emploi dans une entreprise de conseil, en mettant l’accent sur l’explication de la recommandation et sa perception par les utilisateurs. Tout d’abord, nous expérimentons avec des recommandations basées sur la connaissance en utilisant l’ontologie européenne des compétences et des professions ESCO qui présente des résultats prometteurs, mais en raison des limites actuelles, nous utilisons finalement un système de recommandation sémantique qui fait désormais partie des processus de l’entreprise et offre la possibilité d’études qualitatives et quantitatives sur l’impact des recommandations et de leurs explications.Nous relions la disponibilité des explications à des gains majeurs d’efficacité pour les recruteurs. L’explication offre également un moyen précieux d’affiner les recommandations grâce à des retours utilisateurs contextuels. Un tel retour d’information est non seulement utile pour générer des recommandations en temps réel, mais aussi pour fournir des données précieuses pour évaluer les modèles et améliorer davantage le système. À l’avenir, nous préconisons que la disponibilité des recommandations devienne la norme pour tous les systèmes de recommandation d’emploi. Recruitment has always been a crucial task for the success of companies, and especially consulting companies for which hiring is a centerpiece of their business model. The growth of the labor market along with the increasing number of specialized skills that are required by companies has motivated the exploration of techniques to optimize and even automate parts of the recruitment process.The numerous progress made in the fields of Artificial Intelligence and Natural Language Processing during the past few decades offered the opportunity to efficiently process the data used during recruitment.We examine the use of a job recommender system in a consulting company, with a focus on the explanation of the recommendation and its perception by users. First, we experiment with knowledge-based recommendations using the European ontology of skills and occupation ESCO which showcases promising results, but because of current limitations, we finally use a semantic-based recommender system that has since become part of the company processes and offers the opportunity for qualitative and quantitative studies on the impact of the recommendations and its explanations.We link the explanation availability to major gains in efficiency for recruiters. It also offers them a valuable way to fine-tune recommendations through contextual feedback. Such feedback is not only useful for generating recommendations at run-time but also for providing valuable data to evaluate models and further improve the system. Going forward we advocate that the availability of recommendations should be the standard for every job recommender system.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ HAL-Rennes 1; INRIA ...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ HAL-Rennes 1; INRIA ...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Yang, Antoine;

    L’objectif de cette thèse est de construire et de former des modèles d’apprentissage automatique combinant la puissance du traitement du langage naturel avec la compréhension visuelle, permettant une compréhension complète et détaillée du contenu des vidéos. Premièrement, nous proposons deux nouvelles méthodes pour développer des modèles de réponses aux questions sur des vidéos sans avoir recours à une annotation manuelle coûteuse. Nous générons automatiquement des données de réponses aux questions sur des vidéos à partir de vidéos commentées à l’aide de modèles de génération de questions utilisant uniquement du texte. Nous montrons ensuite qu’un transformateur multi-modal entraîné de manière contrastée sur les données générées peut répondre aux questions visuelles sans entraînement supplémentaire. Afin de contourner la procédure de génération de données, nous présentons une approche alternative, nommée FrozenBiLM, qui exploite directement des modèles de langage masqué bidirectionnels. Deuxièmement, nous développons TubeDETR, un modèle de transformateur capable de localiser spatialement et temporellement une requête en langage naturel dans une vidéo non découpée. Contrairement aux approches spatio-temporelles antérieures, TubeDETR peut être efficacement entraîné de bout en bout sur des vidéos non rognées. Troisièmement, nous présentons un nouveau modèle et un nouvel ensemble de données pour la compréhension de multiple évènements dans les vidéos non découpées. Nous introduisons le modèle Vid2Seq qui génère des descriptions denses en langage naturel et les limites temporelles correspondantes pour tous les événements dans une vidéo non découpée en prédisant une seule séquence de jetons. De plus, Vid2Seq peut être efficacement pré-entraîné sur des vidéos commentées à grande échelle en utilisant les transcriptions de paroles comme pseudo-supervision. Enfin, nous présentons VidChapters-7M, un ensemble de données à grande échelle de vidéos chapitrées par les utilisateurs. Sur la base de cet ensemble de données, nous évaluons des modèles de pointe sur trois tâches, dont la génération de chapitres vidéo. Nous montrons également que les modèles de génération de chapitres vidéo se transfèrent bien au sous-titrage vidéo dense. The goal of this thesis is to build and train machine learning models that combine the power of natural language processing with visual understanding, enabling a comprehensive and detailed comprehension of the content within videos. First, we propose two scalable approaches to develop video question answering models without the need for costly manual annotation. We automatically generate video question answering data from narrated videos using text-only question-generation models. We then show that a multi-modal transformer trained contrastively on the generated data can answer visual questions in a zero-shot manner. In order to bypass the data generation procedure, we present an alternative approach, dubbed FrozenBiLM, that directly leverages bidirectional masked language models. Second, we develop TubeDETR, a transformer model that can spatially and temporally localize a natural language query in an untrimmed video. Unlike prior spatio-temporal grounding approaches, TubeDETR can be effectively trained end-to-end on untrimmed videos. Third, we present a new model and a new dataset for multi-event understanding in untrimmed videos. We introduce the Vid2Seq model which generates dense natural language descriptions and corresponding temporal boundaries for all events in an untrimmed video by predicting a single sequence of tokens. Moreover, Vid2Seq can be effectively pretrained on narrated videos at scale using transcribed speech as pseudo-supervision. Finally, we introduce VidChapters-7M, a large-scale dataset of user-chaptered videos. Based on this dataset, we evaluate state-of-the-art models on three tasks including video chapter generation. We also show that video chapter generation models transfer well to dense video captioning in both zero-shot and finetuning settings.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Cripwell, Liam;

    La simplification de texte est une tâche qui consiste à réécrire un texte pour le rendre plus facile à lire et à comprendre pour un public plus large, tout en exprimant toujours le même sens fondamental. Cela présente des avantages potentiels pour certains utilisateurs (par exemple, les locuteurs non natifs, les enfants, les personnes ayant des difficultés de lecture), tout en étant prometteur en tant qu'étape de prétraitement pour les tâches de Traitement Automatique des Langues (TAL) en aval. Les progrès récents dans les modèles génératifs neuronaux ont conduit au développement de systèmes capables de produire des sorties très fluides. Cependant, étant donné la nature de "boîte noire" (black box) de ces systèmes de bout en bout, l'utilisation de corpus d'entraînement pour apprendre implicitement comment effectuer les opérations de réécriture nécessaires. Dans le cas de la simplification, ces ensembles de données comportent des limitation en termes à la fois de quantité et de qualité, la plupart des corpus étant soit très petits, soit construits automatiquement, soit soumis à des licences d'utilisation strictes. En conséquence, de nombreux systèmes ont tendance à être trop conservateurs, n'apportant souvent aucune modification au texte original ou se limitant à la paraphrase de courtes séquences de mots sans modifications structurelles substantielles. En outre, la plupart des travaux existants sur la simplification du texte se limitent aux entrées au niveau de la phrase, les tentatives d'application itérative de ces approches à la simplification au niveau du document ne parviennent en effet souvent pas à préserver de manière cohérente la structure du discours du document. Ceci est problématique, car la plupart des applications réelles de simplification de texte concernent des documents entiers. Dans cette thèse, nous étudions des stratégies pour atténuer la conservativité des systèmes de simplification tout en favorisant une gamme plus diversifiée de types de transformation. Cela implique la création de nouveaux ensembles de données contenant des instances d'opérations sous-représentées et la mise en œuvre de systèmes contrôlables capables d'être adaptés à des transformations spécifiques et à différents niveaux de simplicité. Nous étendons ensuite ces stratégies à la simplification au niveau du document, en proposant des systèmes capables de prendre en compte le contexte du document environnant. Nous développons également des techniques de contrôlabilité permettant de planifier les opérations à effectuer, à l'avance et au niveau de la phrase. Nous montrons que ces techniques permettent à la fois des performances élevées et une évolutivité des modèles de simplification. Text simplification is a task that involves rewriting a text to make it easier to read and understand for a wider audience, while still expressing the same core meaning. This has potential benefits for disadvantaged end-users (e.g. non-native speakers, children, the reading impaired), while also showing promise as a preprocessing step for downstream NLP tasks. Recent advancement in neural generative models have led to the development of systems that are capable of producing highly fluent outputs. However, these end-to-end systems often rely on training corpora to implicitly learn how to perform the necessary rewrite operations. In the case of simplification, these datasets are lacking in both quantity and quality, with most corpora either being very small, automatically constructed, or subject to strict licensing agreements. As a result, many systems tend to be overly conservative, often making no changes to the original text or being limited to the paraphrasing of short word sequences without substantial structural modifications. Furthermore, most existing work on text simplification is limited to sentence-level inputs, with attempts to iteratively apply these approaches to document-level simplification failing to coherently preserve the discourse structure of the document. This is problematic, as most real-world applications of text simplification concern document-level texts. In this thesis, we investigate strategies for mitigating the conservativity of simplification systems while promoting a more diverse range of transformation types. This involves the creation of new datasets containing instances of under-represented operations and the implementation of controllable systems capable of being tailored towards specific transformations and simplicity levels. We later extend these strategies to document-level simplification, proposing systems that are able to consider surrounding document context and use similar controllability techniques to plan which sentence-level operations to perform ahead of time, allowing for both high performance and scalability. Finally, we analyze current evaluation processes and propose new strategies that can be used to better evaluate both controllable and document-level simplification systems.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Marro, Santiago;

    L'analyse automatisée de l'argumentation a suscité un intérêt considérable ces dernières années, car les méthodes informatiques permettent d'améliorer la qualité du discours dans tous les domaines. Ceci est particulièrement pertinent dans des domaines complexes tels que les soins de santé, où un raisonnement sain a un impact direct sur la vie humaine. Le travail présenté dans cette thèse fait progresser l'état de l'art en matière d'extraction d'arguments et d'évaluation de la qualité, adapté aux complexités du domaine médical.La thèse apporte quatre contributions principales : (1) Développement et application des techniques d'extraction d'arguments, y compris l'analyse de leur utilisation dans divers domaines et les contributions à la recherche COVID-19. (2) Méthodes d'évaluation de la qualité de l'argumentation, y compris l'annotation d'un nouvel ensemble de données de 402 essais d'étudiants avec des dimensions de qualité telles que la cohérence, la rhétorique et la vraisemblance. Des architectures neuronales innovantes combinant des caractéristiques textuelles et des encastrements de graphes se révèlent capables de classer correctement ces facettes, obtenant respectivement 0,78 F1, 0,89 F1 et 0,54 F1. (3) Identification des prémisses potentielles dans le domaine médical en analysant automatiquement les symptômes de 314 cas cliniques et en les alignant sur des sources de connaissances externes telles que l'ontologie du phénotype humain (HPO) à l'aide d'enchâssements contextuels (précision de 0,53). (4) Développement d'une fonction de prévalence transparente pour classer le pouvoir explicatif des prémisses identifiées, en s'appuyant sur des statistiques telles que l'anormalité et l'unicité de la base de connaissances.Cette thèse apporte des contributions significatives aux domaines de l'extraction d'arguments et de l'évaluation de la qualité grâce au développement de nouvelles techniques et ressources. Les méthodes proposées repoussent les limites de l'analyse automatique des arguments, tandis que les ensembles de données spécialement conçus offrent de nouvelles opportunités pour la recherche axée sur les données. Un point fort est l'application personnalisée au domaine médical, qui a nécessité l'adaptation des notions et des objectifs de l'argumentation pour convenir à ce domaine complexe. La thèse améliore notre compréhension théorique de la modélisation de la qualité et apporte des avancées pratiques dans l'extraction d'arguments. En reliant les idées entre les domaines, elle ouvre la voie à de futures recherches interdisciplinaires à l'intersection de l'argumentation, de l'apprentissage automatique et de disciplines spécialisées telles que les soins de santé. The automated analysis of argumentation has garnered significant interest in recent years, as computational methods stand to enhance discourse quality across domains. This is especially pertinent in complex fields like healthcare, where sound reasoning bears direct impacts on human lives. The work presented in this thesis advances the state-of-the-art in argument mining and quality assessment, crafted to the intricacies of the medical domain.The thesis makes four main contributions: (1) Development and application of argument mining techniques, including analysis of their use in various domains and contributions to COVID-19 research. (2) Argumentation quality assessment methods, including annotation of a new dataset of 402 student essays with quality dimensions like cogency, rhetoric, and reasonableness. Innovative neural architectures combining textual features and graph embeddings are shown to aptly classify these facets, obtaining .78 F1, .89 F1, and 0.54 F1 respectively. (3) Identification of potential premises in the medical domain by automatically analyzing symptoms from 314 clinical cases and aligning them with external knowledge sources such as the Human Phenotype Ontology (HPO) using contextual embeddings (.53 accuracy). (4) Development of a transparent prevalence function to rank the explanatory power of the identified premises, leveraging statistics like abnormality and uniqueness from the knowledge base.This thesis makes significant contributions to the fields of argument mining and quality assessment through the development of novel techniques and resources. The proposed methods push the boundaries of automatic argument analysis, while the specially crafted datasets provide new opportunities for data-driven research. A major highlight is the tailored application to the medical domain, which required adapting argumentation notions and objectives to suit this complex field. The thesis enhances our theoretical understanding of quality modelling and delivers practical advancements in argument mining. By connecting insights across domains, it paves the way for future interdisciplinary research at the intersection of argumentation, machine learning, and specialized disciplines like healthcare.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Rosales Núñez, José;

    Les avancées rapides des télécommunications au cours des dernières décennies ont révolutionné la manière dont les gens échangent des informations. Grâce à ces progrès, l'utilisateur moyen peut désormais communiquer avec d'autres personnes à travers le monde en temps réel et avec un délai minimal. Avec environ 60 % de la population mondiale ayant accès à Internet, des milliards d'individus interagissent en partageant du contenu généré par les utilisateurs (UGC) sous diverses formes. Ce contenu généré par les utilisateurs, qui comprend souvent des critiques et des opinions, constitue une source précieuse d'informations, offrant une vue d'ensemble des tendances mondiales. La traduction automatique joue un rôle vital en permettant une communication fluide et en facilitant le traitement automatique de l'UGC à des fins d'exploration de données.Cependant, la traduction des UGC présente des défis uniques par rapport à la traduction d'un texte traditionnel. L'UGC est très productif et présente divers phénomènes tels que des caractères répétés, des erreurs typographiques, des contractions, du jargon et des structures de phrases non conventionnelles. Ces spécificités entraînent un nombre important de mots hors vocabulaire (OOV) et de séquences rares, qui posent des problèmes car ils ne sont pas représentés de manière adéquate dans les corpus parallèles standard utilisés pour entraîner les modèles de traduction automatique. En outre, les techniques conventionnelles d'adaptation au domaine, telles que le “fine-tuning”, n'ont qu'un succès limité dans la résolution de ces problèmes. Elles souffrent d'une dégradation des performances lorsqu'elles sont appliquées aux données du domaine et ne sont pas en mesure de suivre l'évolution constante de la nature de l'UGC.Dans cette étude, nous nous concentrons sur la tâche de traduction automatique des UGC dans le scénario "zero-shot", où nous nous abstenons d'utiliser des données d'apprentissage spécifiques aux UGC. Notre objectif est de développer des architectures de traduction automatique plus généralisées, capables de gérer le “distributional shift”, inhérente à l'évaluation de la traduction des UGC. Dans la phase initiale de notre recherche, nous avons consacré nos efforts à l'identification et à la quantification des spécificités de l'UGC qui entravent la performance de la traduction. Nous avons également créé des cadres d'évaluation et des collections de données pour nous aider dans cette tâche. À l'aide de modèles “off-the-shelf”, nous étudions les difficultés rencontrées par les systèmes de traduction automatique lorsqu'ils traduisent des UGC et nous établissons un lien entre les erreurs et les mécanismes sous-jacents.Ensuite, nous nous penchons sur l'étude et la proposition de différentes méthodes pour relever les défis posés par l'UGC. Ces méthodes comprennent l'exploration des pipelines de normalisation, l'emploi de techniques de tokenisation plus granulaires et l'utilisation de modèles de variables latentes pour améliorer la robustesse des systèmes de traduction automatique. Pour chacune de ces approches, nous évaluons systématiquement les performances et la robustesse des systèmes, nous effectuons une analyse détaillée des erreurs et nous proposons des pistes prometteuses pour aborder la traduction automatique des UGC dans une évaluation “zéro-shot”. The rapid advancements in telecommunications over the past few decades have revolutionized the way people exchange information. Thanks to these advancements, the average user can now communicate with others across the globe in real-time and with minimal delay. With approximately 60% of the global population having Internet access, billions of individuals interact by sharing user-generated content (UGC) in various forms. This UGC, which often includes reviews and opinions, provides a valuable source of information, offering a comprehensive view of global trends. Machine Translation (MT) plays a vital role in enabling smooth communication and facilitating the automatic processing of UGC for data mining purposes.However, translating UGC presents unique challenges compared to translating traditional text. UGC is highly productive and exhibits various phenomena such as repeated characters, typographical errors, contractions, jargon, and unconventional sentence structures. These specificities lead to a significant number of Out-of-Vocabulary tokens (OOVs) and rare sequences, which pose problems since they are not adequately represented in the standard parallel corpora used to train MT models. Additionally, conventional domain adaptation techniques like fine-tuning have limited success in addressing these challenges. They suffer from performance degradation when applied to in-domain data and are unable to keep up with the ever-evolving nature of UGC.In this study, we focus on the task of automatically translating UGC in the zero-shot scenario, where we restrain from using any UGC-specific training data. Our aim is to develop more generalized MT architectures that can handle the distributional drift inherent in UGC. In the initial phase of our research, we dedicated our efforts to identifying and quantifying the specificities of UGC that hinder translation performance. We have also created evaluation frameworks and data collections to aid in this endeavor. Using off-the-shelf models, we investigate the challenges faced by MT systems when translating UGC and link the errors to their underlying mechanisms.Subsequently, we delve into the study and proposal of different methods to address the challenges posed by UGC. These methods include exploring normalization pipelines, employing more granular tokenization techniques, and utilizing latent variable models to enhance the robustness of MT systems. For each of these approaches, we systematically evaluate the performance and robustness of the systems, conduct a detailed error analysis, and offer insights into promising avenues for tackling the automatic translation of UGC in the zero-shot setting.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • Authors: Gaugne, Ronan; Saint-Auret, Sony; Duc-Martin, Pierre; Gouranton, Valérie;

    Real tennis or "courte paume" in its original naming in French, is a racket sport that has been played for centuries and is considered the ancestor of tennis. It was a very popular sport in Europe during the Renaissance period, practiced in every layer of the society. It is still practiced today in few courts in the world, especially in United Kingdom, France, Australia, and USA. It has been listed in the Inventory of Intangible Cultural Heritage in France since 2012. The goal of our project is to elicit interest in this historical sport and for the new and future generations to experience it. We developped a virtual environment that enables its users to experience real tennis game. This environment was then tested to assess its acceptability and usability in different context of use. We found that such use of virtual reality enabled our participants to discover the history and rules of this sport, in a didactic and pleasant manner. We hope that our VR application will encourage younger and future generations to play real tennis. International audience

    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
  • Authors: Berthelier, Gaspard; Boutet, Antoine; Richard, Antoine;

    Patient medical data is extremely sensitive and private, and thus subject to numerous regulations which require anonymization before disseminating the data. The anonymization of medical documents is a complex task but the recent advances in NLP models have shown encouraging results. Nevertheless, privacy risks associated with NLP models may still remain. In this paper, we present the main privacy concerns in NLP and a case study conducted in collaboration with the Hospices Civils de Lyon (HCL) to exploit NLP models to anonymize medical data. National audience

    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
Advanced search in Research products
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
The following results are related to Digital Humanities and Cultural Heritage. Are you interested to view more results? Visit OpenAIRE - Explore.
  • image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    Authors: Guillaume, Maxime; Pogodalla, Sylvain; Tourneur, Vincent;

    Abstract categorial grammars (ACGs) is an expressive grammatical framework whose formal properties have been intensively studied. While it can provide its own account, as a grammar, of linguistic phenomena, it is known to encode several grammatical formalisms, such as context-free grammars, but also mildly context-sensitive formalisms such as tree-adjoining grammars or m-linear context-free rewriting systems for which parsing is polynomial. The ACG framework is based on a small set of mathematical primitives from type theory, λ-calculus, and linear logic. These primitives combine via simple composition rules, offering it flexibility.The ACG toolkit we present provides a compiler, acgc, that checks and turns ACGs into representations that are suitable for testing and parsing, used in the acg interpreter. We illustrate these functionalities and discuss implementation features, in particular the Datalog reduction on which parsing is based, and the magic set rewriting techniques that can further be applied. International audience

    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
  • image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    Authors: Abdoul Soukour, Shahin; Aboucaya, William; Georgantas, Nikolaos;

    KAOS is one of the most widely used Goal-Oriented Requirements Engineering (GORE) methods. The goal model is the central element of KAOS, employed to represent the goals of a system in the form of a hierarchy, where higher-level goals are refined into lower-level ones. The process of constructing a KAOS goal model for a new application can present challenges, requiring significant time and effort. Existing approaches have tried to partially automate the construction of goal models, however, this largely remains a complex, manual task. In this paper, we propose leveraging domain knowledge in the form of a Knowledge Graph (KG), which can assist the application designer in creating goals that are inspired from this knowledge. To accomplish this, we leverage semantic similarity measurement and Natural Language Inference (NLI) to effectively extract triples from the KG that are relevant to a high-level goal formulated by the designer. The extracted triples are further processed through sentiment analysis and graph-to-text generation, before presented to the designer. Via step-by-step interaction with our solution, the designer can gradually refine their initial goals into a goal hierarchy. We perform an empirical evaluation of our approach by applying it to the design of a flood management system, based on a handcrafted domain KG. International audience

    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
    image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao INRIA a CCSD electro...arrow_drop_down
      image/svg+xml Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao Closed Access logo, derived from PLoS Open Access logo. This version with transparent background. http://commons.wikimedia.org/wiki/File:Closed_Access_logo_transparent.svg Jakob Voss, based on art designer at PLoS, modified by Wikipedia users Nina and Beao
  • Authors: Aboucaya, William;

    Les plates-formes participatives en ligne sont devenues un moyen courant d'impliquer les citoyens dans la prise de décision publique, permettant une participation à plus grande échelle que leurs homologues hors ligne, à la fois en termes de nombre de participants et de répartition géographique. Cependant, le terme ``plateforme participative'' recouvre un large éventail de systèmes extrêmement différents, ce qui implique des différences dans les problèmes rencontrés par les administrateurs et les contributeurs des plateformes. Plus précisément, ces plateformes font face à des problèmes spécifiques lorsqu'elles visent à permettre aux citoyens de collaborer pour produire des contributions communes ou lorsque le nombre de contributeurs impliqués devient particulièrement élevé. Cette recherche doctorale vise à identifier les problèmes des plateformes de participation citoyenne contemporaines et à proposer des moyens techniques pour créer des plateformes participatives plus collaboratives et adaptées à une participation à grande échelle. Ma thèse s'appuie principalement sur des travaux antérieurs réalisés dans les champs de la recherche en informatique que sont le travail collaboratif assisté par ordinateur (CSCW) et le traitement du langage naturel (NLP).Les contributions de cette thèse sont : l'identification des biais d'une plateforme participative spécifique et la recommandation d'alternatives centrées sur la conception de la plateforme pour les résoudre ; la représentation d'une plateforme participative sous la forme d'un graphe de connaissances (knowledge graph) et son enrichissement à partir d'une base de connaissances externe préexistantes ; l'identification des différents objectifs motivant la création de plateformes participatives et des différents types de fonctionnalités d'interaction mises en œuvre à partir d'une série d'entretiens ; la conception et la mise en œuvre d'une méthode basée sur l'inférence en langage naturel pour réduire les problèmes rencontrés par la participation citoyenne en ligne lorsque le nombre de contributeurs devient particulièrement élevé. Online participatory platforms have become a common means to involve citizens in public decision-making, allowing for participation at a larger scale than their offline counterparts, both in the number of participants and in the geographical distribution. However, the term ``participatory platform'' covers a wide range of extremely different systems, implying differences in the problems encountered by platforms administrators and contributors. More precisely, such platforms face specific issues when they aim at allowing citizens to collaborate to produce common contributions or when the number of contributors involved becomes particularly high. This Ph.D. research aims at identifying issues in contemporary online citizen participation platforms and proposing technical means to create participatory platforms more collaborative and suitable for large-scale online participation. My thesis is mainly based on previous works produced in the Computer-Supported Collaborative Work (CSCW) and Natural Language Processing (NLP) fields of computer science research.The contributions of this thesis are: the identification of flaws in a specific citizen participation platform and the recommendation of platform design-oriented alternatives to solve them; the representation of a participatory platform as a knowledge graph and its enrichment using a preexisting external knowledge base; the identification of the different objectives motivating the creation of participatory platforms and of the different types of features for interaction implemented based on a series of interviews; the conception and implementation of a Natural Language Inference-based method to reduce issues faced by online citizen participation when the number of contributors becomes particularly high.% Based on these contributions, I also propose a new workflow for online citizen participation to solve the different issues identified at large scale and improve collaboration between citizens.

    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Mentec, François;

    Le recrutement a toujours été une tâche cruciale pour la réussite des entreprises, notamment pour les entreprises de services pour lesquelles l’embauche est un élément central de leur modèle commercial. La croissance du marché du travail ainsi que l’augmentation du nombre de compétences spécialisées requises par les entreprises ont motivé l’exploration de techniques pour optimiser et même automatiser certaines parties du processus de recrutement.Les nombreux progrès réalisés dans les domaines de l’intelligence artificielle et du traitement automatique du langage naturel au cours des dernières décennies ont offert la possibilité de traiter efficacement les données utilisées lors du recrutement.Nous examinons l’utilisation d’un système de recommandation d’emploi dans une entreprise de conseil, en mettant l’accent sur l’explication de la recommandation et sa perception par les utilisateurs. Tout d’abord, nous expérimentons avec des recommandations basées sur la connaissance en utilisant l’ontologie européenne des compétences et des professions ESCO qui présente des résultats prometteurs, mais en raison des limites actuelles, nous utilisons finalement un système de recommandation sémantique qui fait désormais partie des processus de l’entreprise et offre la possibilité d’études qualitatives et quantitatives sur l’impact des recommandations et de leurs explications.Nous relions la disponibilité des explications à des gains majeurs d’efficacité pour les recruteurs. L’explication offre également un moyen précieux d’affiner les recommandations grâce à des retours utilisateurs contextuels. Un tel retour d’information est non seulement utile pour générer des recommandations en temps réel, mais aussi pour fournir des données précieuses pour évaluer les modèles et améliorer davantage le système. À l’avenir, nous préconisons que la disponibilité des recommandations devienne la norme pour tous les systèmes de recommandation d’emploi. Recruitment has always been a crucial task for the success of companies, and especially consulting companies for which hiring is a centerpiece of their business model. The growth of the labor market along with the increasing number of specialized skills that are required by companies has motivated the exploration of techniques to optimize and even automate parts of the recruitment process.The numerous progress made in the fields of Artificial Intelligence and Natural Language Processing during the past few decades offered the opportunity to efficiently process the data used during recruitment.We examine the use of a job recommender system in a consulting company, with a focus on the explanation of the recommendation and its perception by users. First, we experiment with knowledge-based recommendations using the European ontology of skills and occupation ESCO which showcases promising results, but because of current limitations, we finally use a semantic-based recommender system that has since become part of the company processes and offers the opportunity for qualitative and quantitative studies on the impact of the recommendations and its explanations.We link the explanation availability to major gains in efficiency for recruiters. It also offers them a valuable way to fine-tune recommendations through contextual feedback. Such feedback is not only useful for generating recommendations at run-time but also for providing valuable data to evaluate models and further improve the system. Going forward we advocate that the availability of recommendations should be the standard for every job recommender system.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ HAL-Rennes 1; INRIA ...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ HAL-Rennes 1; INRIA ...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Yang, Antoine;

    L’objectif de cette thèse est de construire et de former des modèles d’apprentissage automatique combinant la puissance du traitement du langage naturel avec la compréhension visuelle, permettant une compréhension complète et détaillée du contenu des vidéos. Premièrement, nous proposons deux nouvelles méthodes pour développer des modèles de réponses aux questions sur des vidéos sans avoir recours à une annotation manuelle coûteuse. Nous générons automatiquement des données de réponses aux questions sur des vidéos à partir de vidéos commentées à l’aide de modèles de génération de questions utilisant uniquement du texte. Nous montrons ensuite qu’un transformateur multi-modal entraîné de manière contrastée sur les données générées peut répondre aux questions visuelles sans entraînement supplémentaire. Afin de contourner la procédure de génération de données, nous présentons une approche alternative, nommée FrozenBiLM, qui exploite directement des modèles de langage masqué bidirectionnels. Deuxièmement, nous développons TubeDETR, un modèle de transformateur capable de localiser spatialement et temporellement une requête en langage naturel dans une vidéo non découpée. Contrairement aux approches spatio-temporelles antérieures, TubeDETR peut être efficacement entraîné de bout en bout sur des vidéos non rognées. Troisièmement, nous présentons un nouveau modèle et un nouvel ensemble de données pour la compréhension de multiple évènements dans les vidéos non découpées. Nous introduisons le modèle Vid2Seq qui génère des descriptions denses en langage naturel et les limites temporelles correspondantes pour tous les événements dans une vidéo non découpée en prédisant une seule séquence de jetons. De plus, Vid2Seq peut être efficacement pré-entraîné sur des vidéos commentées à grande échelle en utilisant les transcriptions de paroles comme pseudo-supervision. Enfin, nous présentons VidChapters-7M, un ensemble de données à grande échelle de vidéos chapitrées par les utilisateurs. Sur la base de cet ensemble de données, nous évaluons des modèles de pointe sur trois tâches, dont la génération de chapitres vidéo. Nous montrons également que les modèles de génération de chapitres vidéo se transfèrent bien au sous-titrage vidéo dense. The goal of this thesis is to build and train machine learning models that combine the power of natural language processing with visual understanding, enabling a comprehensive and detailed comprehension of the content within videos. First, we propose two scalable approaches to develop video question answering models without the need for costly manual annotation. We automatically generate video question answering data from narrated videos using text-only question-generation models. We then show that a multi-modal transformer trained contrastively on the generated data can answer visual questions in a zero-shot manner. In order to bypass the data generation procedure, we present an alternative approach, dubbed FrozenBiLM, that directly leverages bidirectional masked language models. Second, we develop TubeDETR, a transformer model that can spatially and temporally localize a natural language query in an untrimmed video. Unlike prior spatio-temporal grounding approaches, TubeDETR can be effectively trained end-to-end on untrimmed videos. Third, we present a new model and a new dataset for multi-event understanding in untrimmed videos. We introduce the Vid2Seq model which generates dense natural language descriptions and corresponding temporal boundaries for all events in an untrimmed video by predicting a single sequence of tokens. Moreover, Vid2Seq can be effectively pretrained on narrated videos at scale using transcribed speech as pseudo-supervision. Finally, we introduce VidChapters-7M, a large-scale dataset of user-chaptered videos. Based on this dataset, we evaluate state-of-the-art models on three tasks including video chapter generation. We also show that video chapter generation models transfer well to dense video captioning in both zero-shot and finetuning settings.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Cripwell, Liam;

    La simplification de texte est une tâche qui consiste à réécrire un texte pour le rendre plus facile à lire et à comprendre pour un public plus large, tout en exprimant toujours le même sens fondamental. Cela présente des avantages potentiels pour certains utilisateurs (par exemple, les locuteurs non natifs, les enfants, les personnes ayant des difficultés de lecture), tout en étant prometteur en tant qu'étape de prétraitement pour les tâches de Traitement Automatique des Langues (TAL) en aval. Les progrès récents dans les modèles génératifs neuronaux ont conduit au développement de systèmes capables de produire des sorties très fluides. Cependant, étant donné la nature de "boîte noire" (black box) de ces systèmes de bout en bout, l'utilisation de corpus d'entraînement pour apprendre implicitement comment effectuer les opérations de réécriture nécessaires. Dans le cas de la simplification, ces ensembles de données comportent des limitation en termes à la fois de quantité et de qualité, la plupart des corpus étant soit très petits, soit construits automatiquement, soit soumis à des licences d'utilisation strictes. En conséquence, de nombreux systèmes ont tendance à être trop conservateurs, n'apportant souvent aucune modification au texte original ou se limitant à la paraphrase de courtes séquences de mots sans modifications structurelles substantielles. En outre, la plupart des travaux existants sur la simplification du texte se limitent aux entrées au niveau de la phrase, les tentatives d'application itérative de ces approches à la simplification au niveau du document ne parviennent en effet souvent pas à préserver de manière cohérente la structure du discours du document. Ceci est problématique, car la plupart des applications réelles de simplification de texte concernent des documents entiers. Dans cette thèse, nous étudions des stratégies pour atténuer la conservativité des systèmes de simplification tout en favorisant une gamme plus diversifiée de types de transformation. Cela implique la création de nouveaux ensembles de données contenant des instances d'opérations sous-représentées et la mise en œuvre de systèmes contrôlables capables d'être adaptés à des transformations spécifiques et à différents niveaux de simplicité. Nous étendons ensuite ces stratégies à la simplification au niveau du document, en proposant des systèmes capables de prendre en compte le contexte du document environnant. Nous développons également des techniques de contrôlabilité permettant de planifier les opérations à effectuer, à l'avance et au niveau de la phrase. Nous montrons que ces techniques permettent à la fois des performances élevées et une évolutivité des modèles de simplification. Text simplification is a task that involves rewriting a text to make it easier to read and understand for a wider audience, while still expressing the same core meaning. This has potential benefits for disadvantaged end-users (e.g. non-native speakers, children, the reading impaired), while also showing promise as a preprocessing step for downstream NLP tasks. Recent advancement in neural generative models have led to the development of systems that are capable of producing highly fluent outputs. However, these end-to-end systems often rely on training corpora to implicitly learn how to perform the necessary rewrite operations. In the case of simplification, these datasets are lacking in both quantity and quality, with most corpora either being very small, automatically constructed, or subject to strict licensing agreements. As a result, many systems tend to be overly conservative, often making no changes to the original text or being limited to the paraphrasing of short word sequences without substantial structural modifications. Furthermore, most existing work on text simplification is limited to sentence-level inputs, with attempts to iteratively apply these approaches to document-level simplification failing to coherently preserve the discourse structure of the document. This is problematic, as most real-world applications of text simplification concern document-level texts. In this thesis, we investigate strategies for mitigating the conservativity of simplification systems while promoting a more diverse range of transformation types. This involves the creation of new datasets containing instances of under-represented operations and the implementation of controllable systems capable of being tailored towards specific transformations and simplicity levels. We later extend these strategies to document-level simplification, proposing systems that are able to consider surrounding document context and use similar controllability techniques to plan which sentence-level operations to perform ahead of time, allowing for both high performance and scalability. Finally, we analyze current evaluation processes and propose new strategies that can be used to better evaluate both controllable and document-level simplification systems.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Marro, Santiago;

    L'analyse automatisée de l'argumentation a suscité un intérêt considérable ces dernières années, car les méthodes informatiques permettent d'améliorer la qualité du discours dans tous les domaines. Ceci est particulièrement pertinent dans des domaines complexes tels que les soins de santé, où un raisonnement sain a un impact direct sur la vie humaine. Le travail présenté dans cette thèse fait progresser l'état de l'art en matière d'extraction d'arguments et d'évaluation de la qualité, adapté aux complexités du domaine médical.La thèse apporte quatre contributions principales : (1) Développement et application des techniques d'extraction d'arguments, y compris l'analyse de leur utilisation dans divers domaines et les contributions à la recherche COVID-19. (2) Méthodes d'évaluation de la qualité de l'argumentation, y compris l'annotation d'un nouvel ensemble de données de 402 essais d'étudiants avec des dimensions de qualité telles que la cohérence, la rhétorique et la vraisemblance. Des architectures neuronales innovantes combinant des caractéristiques textuelles et des encastrements de graphes se révèlent capables de classer correctement ces facettes, obtenant respectivement 0,78 F1, 0,89 F1 et 0,54 F1. (3) Identification des prémisses potentielles dans le domaine médical en analysant automatiquement les symptômes de 314 cas cliniques et en les alignant sur des sources de connaissances externes telles que l'ontologie du phénotype humain (HPO) à l'aide d'enchâssements contextuels (précision de 0,53). (4) Développement d'une fonction de prévalence transparente pour classer le pouvoir explicatif des prémisses identifiées, en s'appuyant sur des statistiques telles que l'anormalité et l'unicité de la base de connaissances.Cette thèse apporte des contributions significatives aux domaines de l'extraction d'arguments et de l'évaluation de la qualité grâce au développement de nouvelles techniques et ressources. Les méthodes proposées repoussent les limites de l'analyse automatique des arguments, tandis que les ensembles de données spécialement conçus offrent de nouvelles opportunités pour la recherche axée sur les données. Un point fort est l'application personnalisée au domaine médical, qui a nécessité l'adaptation des notions et des objectifs de l'argumentation pour convenir à ce domaine complexe. La thèse améliore notre compréhension théorique de la modélisation de la qualité et apporte des avancées pratiques dans l'extraction d'arguments. En reliant les idées entre les domaines, elle ouvre la voie à de futures recherches interdisciplinaires à l'intersection de l'argumentation, de l'apprentissage automatique et de disciplines spécialisées telles que les soins de santé. The automated analysis of argumentation has garnered significant interest in recent years, as computational methods stand to enhance discourse quality across domains. This is especially pertinent in complex fields like healthcare, where sound reasoning bears direct impacts on human lives. The work presented in this thesis advances the state-of-the-art in argument mining and quality assessment, crafted to the intricacies of the medical domain.The thesis makes four main contributions: (1) Development and application of argument mining techniques, including analysis of their use in various domains and contributions to COVID-19 research. (2) Argumentation quality assessment methods, including annotation of a new dataset of 402 student essays with quality dimensions like cogency, rhetoric, and reasonableness. Innovative neural architectures combining textual features and graph embeddings are shown to aptly classify these facets, obtaining .78 F1, .89 F1, and 0.54 F1 respectively. (3) Identification of potential premises in the medical domain by automatically analyzing symptoms from 314 clinical cases and aligning them with external knowledge sources such as the Human Phenotype Ontology (HPO) using contextual embeddings (.53 accuracy). (4) Development of a transparent prevalence function to rank the explanatory power of the identified premises, leveraging statistics like abnormality and uniqueness from the knowledge base.This thesis makes significant contributions to the fields of argument mining and quality assessment through the development of novel techniques and resources. The proposed methods push the boundaries of automatic argument analysis, while the specially crafted datasets provide new opportunities for data-driven research. A major highlight is the tailored application to the medical domain, which required adapting argumentation notions and objectives to suit this complex field. The thesis enhances our theoretical understanding of quality modelling and delivers practical advancements in argument mining. By connecting insights across domains, it paves the way for future interdisciplinary research at the intersection of argumentation, machine learning, and specialized disciplines like healthcare.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    Authors: Rosales Núñez, José;

    Les avancées rapides des télécommunications au cours des dernières décennies ont révolutionné la manière dont les gens échangent des informations. Grâce à ces progrès, l'utilisateur moyen peut désormais communiquer avec d'autres personnes à travers le monde en temps réel et avec un délai minimal. Avec environ 60 % de la population mondiale ayant accès à Internet, des milliards d'individus interagissent en partageant du contenu généré par les utilisateurs (UGC) sous diverses formes. Ce contenu généré par les utilisateurs, qui comprend souvent des critiques et des opinions, constitue une source précieuse d'informations, offrant une vue d'ensemble des tendances mondiales. La traduction automatique joue un rôle vital en permettant une communication fluide et en facilitant le traitement automatique de l'UGC à des fins d'exploration de données.Cependant, la traduction des UGC présente des défis uniques par rapport à la traduction d'un texte traditionnel. L'UGC est très productif et présente divers phénomènes tels que des caractères répétés, des erreurs typographiques, des contractions, du jargon et des structures de phrases non conventionnelles. Ces spécificités entraînent un nombre important de mots hors vocabulaire (OOV) et de séquences rares, qui posent des problèmes car ils ne sont pas représentés de manière adéquate dans les corpus parallèles standard utilisés pour entraîner les modèles de traduction automatique. En outre, les techniques conventionnelles d'adaptation au domaine, telles que le “fine-tuning”, n'ont qu'un succès limité dans la résolution de ces problèmes. Elles souffrent d'une dégradation des performances lorsqu'elles sont appliquées aux données du domaine et ne sont pas en mesure de suivre l'évolution constante de la nature de l'UGC.Dans cette étude, nous nous concentrons sur la tâche de traduction automatique des UGC dans le scénario "zero-shot", où nous nous abstenons d'utiliser des données d'apprentissage spécifiques aux UGC. Notre objectif est de développer des architectures de traduction automatique plus généralisées, capables de gérer le “distributional shift”, inhérente à l'évaluation de la traduction des UGC. Dans la phase initiale de notre recherche, nous avons consacré nos efforts à l'identification et à la quantification des spécificités de l'UGC qui entravent la performance de la traduction. Nous avons également créé des cadres d'évaluation et des collections de données pour nous aider dans cette tâche. À l'aide de modèles “off-the-shelf”, nous étudions les difficultés rencontrées par les systèmes de traduction automatique lorsqu'ils traduisent des UGC et nous établissons un lien entre les erreurs et les mécanismes sous-jacents.Ensuite, nous nous penchons sur l'étude et la proposition de différentes méthodes pour relever les défis posés par l'UGC. Ces méthodes comprennent l'exploration des pipelines de normalisation, l'emploi de techniques de tokenisation plus granulaires et l'utilisation de modèles de variables latentes pour améliorer la robustesse des systèmes de traduction automatique. Pour chacune de ces approches, nous évaluons systématiquement les performances et la robustesse des systèmes, nous effectuons une analyse détaillée des erreurs et nous proposons des pistes prometteuses pour aborder la traduction automatique des UGC dans une évaluation “zéro-shot”. The rapid advancements in telecommunications over the past few decades have revolutionized the way people exchange information. Thanks to these advancements, the average user can now communicate with others across the globe in real-time and with minimal delay. With approximately 60% of the global population having Internet access, billions of individuals interact by sharing user-generated content (UGC) in various forms. This UGC, which often includes reviews and opinions, provides a valuable source of information, offering a comprehensive view of global trends. Machine Translation (MT) plays a vital role in enabling smooth communication and facilitating the automatic processing of UGC for data mining purposes.However, translating UGC presents unique challenges compared to translating traditional text. UGC is highly productive and exhibits various phenomena such as repeated characters, typographical errors, contractions, jargon, and unconventional sentence structures. These specificities lead to a significant number of Out-of-Vocabulary tokens (OOVs) and rare sequences, which pose problems since they are not adequately represented in the standard parallel corpora used to train MT models. Additionally, conventional domain adaptation techniques like fine-tuning have limited success in addressing these challenges. They suffer from performance degradation when applied to in-domain data and are unable to keep up with the ever-evolving nature of UGC.In this study, we focus on the task of automatically translating UGC in the zero-shot scenario, where we restrain from using any UGC-specific training data. Our aim is to develop more generalized MT architectures that can handle the distributional drift inherent in UGC. In the initial phase of our research, we dedicated our efforts to identifying and quantifying the specificities of UGC that hinder translation performance. We have also created evaluation frameworks and data collections to aid in this endeavor. Using off-the-shelf models, we investigate the challenges faced by MT systems when translating UGC and link the errors to their underlying mechanisms.Subsequently, we delve into the study and proposal of different methods to address the challenges posed by UGC. These methods include exploring normalization pipelines, employing more granular tokenization techniques, and utilizing latent variable models to enhance the robustness of MT systems. For each of these approaches, we systematically evaluate the performance and robustness of the systems, conduct a detailed error analysis, and offer insights into promising avenues for tackling the automatic translation of UGC in the zero-shot setting.

    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
    image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ INRIA a CCSD electro...arrow_drop_down
      image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
  • Authors: Gaugne, Ronan; Saint-Auret, Sony; Duc-Martin, Pierre; Gouranton, Valérie;

    Real tennis or "courte paume" in its original naming in French, is a racket sport that has been played for centuries and is considered the ancestor of tennis. It was a very popular sport in Europe during the Renaissance period, practiced in every layer of the society. It is still practiced today in few courts in the world, especially in United Kingdom, France, Australia, and USA. It has been listed in the Inventory of Intangible Cultural Heritage in France since 2012. The goal of our project is to elicit interest in this historical sport and for the new and future generations to experience it. We developped a virtual environment that enables its users to experience real tennis game. This environment was then tested to assess its acceptability and usability in different context of use. We found that such use of virtual reality enabled our participants to discover the history and rules of this sport, in a didactic and pleasant manner. We hope that our VR application will encourage younger and future generations to play real tennis. International audience

    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert
  • Authors: Berthelier, Gaspard; Boutet, Antoine; Richard, Antoine;

    Patient medical data is extremely sensitive and private, and thus subject to numerous regulations which require anonymization before disseminating the data. The anonymization of medical documents is a complex task but the recent advances in NLP models have shown encouraging results. Nevertheless, privacy risks associated with NLP models may still remain. In this paper, we present the main privacy concerns in NLP and a case study conducted in collaboration with the Hospices Civils de Lyon (HCL) to exploit NLP models to anonymize medical data. National audience

    0
    citations0
    popularityAverage
    influenceAverage
    impulseAverage
    BIP!Powered by BIP!
    more_vert