Canalblog
Suivre ce blog Administration + Créer mon blog

mli07 S1

Archives
Derniers commentaires
26 novembre 2010

pour traduire : terminologie terminologue trouve

  1. pour traduire :  terminologie
  2. terminologue trouve 
  3. expert valide
  4. résultat fiches structurées
  5. ... et base

BASE = FORMAT EXPLOITABLE PAR LES OUTILS DE TRADUCTION

Centre de recherche Termisiti (www.termisti.org)

Terminologie :

  1. Vocabulaire particulier
  2. Étude systématique des termes
  3. Principes généraux qui président à cette étude

Terminographie

  • activité rédactionnelle de production de description et de traduction d'unités lexicales spécialisées

Terminotique

  1. constitution de vastes corpus
  2. recherche systématique de termes spécialisés et de collocations
  3. recherche de connaissances (sémantiques synonymes équivalents)
  4. modélisation d'un dictionnaire electronique
  5. engrangement de données dans un dico
  6. échange de données textuelles ou terminographiques

Publicité
26 janvier 2010

Les travaux

** travail 1 : test des outils d'annotation

- récupérer un extrait de corpus (je vous conseille de piocher dans les résumés de film) et essayer de l'annoter avec GLOZZ, MMAX et GATE

- comparer les sorties (avantages et difficultés de la prise en main / l'utilisation de chacun des outils) et faire un petit état de tout cela par écrit (rapidement).

** travail 2 : constitution du corpus de l'Est Républicain

- trouver une procédure automatique XSLT pour récupérer le texte.

- envoyer le corpus pour l'étiqueter sous TTL.

** travail 3 : annotation manuelle préliminaire

- éléments à annoter : noms propres et noms de fonction, pronoms, possessifs, descriptions définies, groupes nominaux avec une relative (le chat qui a la patte cassée)

              #lecture 1 = on annote toutes les expressions référentielles

              #lecture 2 = on rattache les expressions référentielles qui appartiennent à une chaîne de référence et on note la position de chaque maillon dans la chaine (maillon 1, 2, ...)

- éléments qu'on ne prendra pas en compte : les anaphores associatives, les anaphores plurielles, et les partitives

- faire un état des problèmes rencontrés pour annoter (phrase + question/choix d'annotation) de manière précise pour que l'on en discute la prochaine fois.

26 janvier 2010

Les corpus

- le texte intégral des "trois mousquetaires" Dumas1 Dumas2

- lien vers le corpus de l'Est Républicain : http://www.cnrtl.fr/corpus/estrepublicain/

- lien vers les résumés de film :  http://joeyy.free.fr/resumes-films-a.htm

- lien vers les rapports publics de la documentation française : http://www.ladocumentationfrancaise.fr/rapports/index.shtml

- un  extrait_acquis_communautaire

 

 

26 janvier 2010

ITIRI

26 janvier 2010

Conférence TOTh 2010

Conférence TOTh 2010 Terminologie & Ontologie : Théories et Applications : Annecy : 3 & 4 juin 2010 (formation : 2 juin)

Publicité
26 janvier 2010

Le numéro 50:1 varia 2009 de la revue TAL

Le numéro 50:1 varia 2009 de la revue TAL est maintenant en ligne.
Sommaire : http://www.atala.org/Preface,509
Un modèle formel de descriptions lexicales : formalisme BDéf et structures de traits typées
 Une approche textuelle pour l’analyse de textes de recommandationsmédicales
 Alignement monolingue avec recherche de déplacements pour la critiquegénétique:  
Résolution de métonymie des entités nommées : proposition d’uneméthode hybride
 D-STAG : un formalisme d’analyse automatique de discours fondé sur lesTAG synchrones
 SLAMSolutions lexicales automatiques pour métaphores
Similitude entre les ses d’usage d’un terme dans un réseau lexical
 Analyse conjointe du signal sonore et de sa transcription pourl’identification nommée de locuteurs
 Convertir des grammaires d’arbres adjoints à composantes multiplesavec tuples d’arbres (TT-MCTAG) en grammaires à concaténationd’intervalles (RCG)
 Évaluation des outils terminologiques : enjeux, difficultés etpropositions
 Points d’ancrage pour l’extraction lexicale bilingue à partir depetits corpus comparables spécialisés
Éléments de confiance pour la caractérisation des termes
Extraction de collocations et leurs équivalents de traduction à partirde corpus parallèles
http://atala.org/Extraction-de-collocations-et
Notes de lecture http://atala.org/Notes-de-lecture,522, Les verbes modaux du français Théorie des opérations énonciatives et modélisation, Opinion Mining and Sentiment Analysis Aperçus demorphologie du français Résumés de thèses et HDR


26 janvier 2010

CRoTAL

Date: Tue, 19 Jan 2010 20:23:07 +0100 From: Isabelle Tellier <isabelle.tellier@univ-orleans.fr>
Les CRF ("Conditional Random Fields" ou "Champs Markoviens Conditionnels") sont une famille de modèles graphiques discriminants introduits récemment (Lafferty, McCallum et Pereira 2001, Sutton et McCallum 2006). Ils permettent d'apprendre à annoter des données, en se basant sur un ensemble d'exemples déjà annotés. Le projet ANR CRoTAL (Conditional Random Fields pour le TAL), qui a débuté en 2008, a pour but d'étudier les CRF, dans leurs dimensions à la fois théoriques et pratiques. L'objectif de ces journées est de rendre compte de ses premiers résultats auprès de la communauté du TAL, et de faire le point sur les travaux en cours utilisant les CRF. Il est ouvert à tous, qu'ils aient ou non participé au projet CRoTAL

26 janvier 2010

Stage au CEA

Date: Tue, 19 Jan 2010 16:30:05 +0100 From: "FERRET Olivier 174579" <olivier.ferret@cea.fr>Proposition de stage de master 2
Extraction supervisée de relations entre entités nommées à une large échelle CEA LIST/LVIC, Fontenay-aux-Roses CONTEXTE
Le sujet de stage proposé se situe globalement dans le domaine du Traitement Automatique des Langues (TAL) et se focalise plus précisément sur l'une de ses branches applicatives les plus actives, l'extraction d'information. Celle-ci a pour objectif de repérer automatiquement dans des textes les entités caractéristiques d'un domaine ainsi que les relations intervenant entre ces entités, ceci
dans le but d'alimenter une base de connaissances ou une base de données.

Le laboratoire LVIC (anciennement LIC2M) du CEA LIST possède en outre, au travers de sa plate-forme LIMA, des outils de traitement linguistique intégrant la reconnaissance d'entités nommées "générales". Le stage se concentrera donc sur la phase d'extraction de relations, pour laquelle le niveau de performance des systèmes actuels reste à améliorer. C'est particulièrement le cas lorsque l'objectif est de couvrir un ensemble large de types de relations. Le stage s'effectuera dans la perspective de l'évaluation KBP (Knowledge Base Population) de la campagne TAC 2009 (Text Analysis Conference) et en reprendra les caractéristiques et les données. Plus précisément, cette évaluation vise à rassembler des informations factuelles concernant des entités relevant de trois
grands types : personnes, organisations et entités géopolitiques.  Ces informations factuelles prennent la forme de relations appartenant à 42 types possibles (date et lieux de naissance, âge, religion, nombre d'employés, fondateur, etc).

COMPÉTENCES REQUISES - niveau M2 (ou ingénieur) en Informatique avec une spécialisation    en Traitement Automatique des Langues
  - langage C++ ainsi qu'un langage de script de type Perl ou Python 

MODALITÉS Le stage sera rémunéré et se déroulera pour une durée de 6 mois au sein du Laboratoire Vision et Ingénierie des Contenus (LVIC, anciennement LIC2M) du CEA LIST, situé sur le centre CEA de Fontenay-aux-Roses (92).

23 janvier 2010

ICE TAL

PROGRAM COMMITTEE
-----------------
Chair

    * Hrafn Loftsson, Reykjavik University, Iceland

Members

    * Walid El Abed, Global Data Excellence Ltd., UK
    * Jan Alexandersson, DFKI, Germany
    * Jorge Baptista, University of Algarve, Portugal
    * Tilman Becker, DFKI, Germany
    * Chris Biemann, Powerset, USA
    * Lars Borin, Gothenburg University, Sweden
    * Johan Bos, La Sapienza, Italy
    * Caroline Brun, Xerox Corporation, France
    * Sylviane Cardey, University of Franche-Comté, France
    * Robin Cooper, Gothenburg University, Sweden
    * Walter Daelemans, University of Antwerp, Belgium
    * Rodolfo Delmonte, University of Venice, Italy
    * Markus Dickinson, Indiana University, USA
    * Mikel L. Forcada, University of Alicante, Spain
    * Robert Gaizauskas, University of Sheffield, UK
    * Filip Ginter, University of Turku, Finland
    * Peter Greenfield, University of Franche-Comté, France
    * Philippe de Groote, INRIA Lorraine, France
    * Sigrún Helgadóttir, Arni Magnusson Institute for Icelandic Studies, Iceland
    * Hitoshi Isahara, NICT, Japan
    * Janne Bondi Johannessen, University of Oslo, Norway
    * Krister Lindén, University of Helsinki, Finland
    * Bente Maegaard, University of Copenhagen, Denmark
    * Sun Maosong, Tsinghua, University, China
    * Leonel Ruiz Miyares, Centro de Lingüística Aplicada, Cuba
    * Joakim Nivre, Uppsala and Växjö University, Sweden
    * Pierre Nugues, University of Lund, Sweden
    * Guy Perrier, INRIA Lorraine, France
    * Liu Qun, Institute of Computing Technology, China
    * Aarne Ranta, Chalmers and Gothenburg University, Sweden
    * Eiríkur Rögnvaldsson, University of Iceland, Iceland
    * Tapio Salakoski, University of Turku, Finland
    * Karl-Michael Schneider, Cataphora, USA
    * Koenraad de Smedt, University of Bergen, Norway
    * Mark Stevenson, University of Sheffield, UK
    * Izabella Thomas, University of Franche-Comté, France
    * Trond Trosterud, University of Tromsö, Norway
    * José Luis Vicedo, University of Alicante, Spain
    * Simo Vihjanen, Lingsoft Ltd., Finland
    * Hannes H. Vilhjálmsson, Reykjavik University, Iceland
    * Martin Volk, University of Zurich, Switzerland
    * Matthew Whelpton, University of Iceland, Iceland
    * Xiaohong Wu, Minzu University of Qinghai, China
    * Annie Zaenen, Palo Alto Research Center, USA

23 janvier 2010

IceTAL 2010 Reykjavik

IceTAL 2010 - 7th International Conference on Natural Language Processing Reykjavik, Iceland
16-18 August 2010 Web page: http://icetal.ru.is

IceTAL is the seventh in the series of the TAL conferences, following GoTAL 2008 (Gothenburg, Sweden), FinTAL 2006 (Turku, Finland), EsTAL 2004 (Alicante, Spain), PorTAL 2002 (Faro, Portugal), VexTAL 1999
(Venice, Italy) and FracTAL 1997 (Besançon, France).

The main purpose of the TAL conference series is to bring together scientists representing linguistics, computer science and related fields, sharing a common interest in the advancement of computational
linguistics and natural language processing (NLP).

  recent, substantial, original and unpublished research on all aspects of computational linguistics and natural
language and speech processing, including, but not limited to:

    * phonetics, phonology, and morphology
    * speech recognition and speech synthesis
    * word segmentation, tagging, and chunking
    * syntax, parsing, and grammar formalisms
    * lexical semantics and word sense disambiguation
    * pragmatics, discourse, and dialogue
    * lexicon, lexical databases, and ontologies
    * generation and summarization
    * information retrieval, question answering, and information
      extraction
    * machine translation, translation aids, and multilingual systems
    * dialogue systems and multimodal systems
    * language resources and tools
    * linguistic, psychological, and mathematical models of language
    * corpus linguistics
    * corpus-based language modeling
    * language learning and therapy
    * simulation and visualization
    * knowledge acquisition and representation
    * text and speech interfaces
    * text and speech classification
    * systems evaluation

Publicité
1 2 3 4 5 6 7 8 9 10 20 30 > >>
Publicité
Publicité