Attention, Ce wiki a été transféré sur le domaine Démo.Istex.
Voir : https://wicri-demo.istex.fr/Wicri/Sic/H2PTM/fr/index.php?title=Accueil
-
H2PTM (1997) Halleb
De H2PTM
Hypertextualisation automatique multilingue à partir des fréquences des n-grammes
|
- Résumé
- Nous présentons une méthode de classification thématique de grandes collections de textes, indépendante du langage, permettant de créer des interfaces de navigation hypertextuelles dans ces collections, quelle que soit la langue utilisée. Cette méthode caractérise les textes par leurs fréquences de n-grammes (séquences de n-caractères consécutifs). Plusieurs variantes de construction des vecteurs-textes, et de pondération de ceux-ci, sont présentées et comparées aux résultats obtenus avec une représentation des documents par la fréquence de leurs termes d’indexation. L’analyse de ces données assurée par un modèle neuronal développé (LEL 94).
- Mots-clés
- classification automatique, n-gramme, recherche d’information, traitement multilingue, modèle neuronal, hypertextualisation, H-coding.
- Mots-clés (pascal)
- Classification; Classification automatique; Recherche information; Multilinguisme; Réseau neuronal; Hypertexte.
English description
- Abstract
- We present a non-supervised, language independent method for clustering big texts collections and deriving hypertextual interfaces. In this method, texts are characterized with their distribution of n-gram frequencies. Several variants are presented and compared with a method involving indexing terms frequencies. In both cases a cartographic representation derived using neural model described in [LEL 94].
- Key words
- cluster analysis, n-gram, information retrieval, multilingual processing, neural model, hypertextualization.
Faits relatifs à H2PTM (1997) Halleb
A pour affiliation auteur | Université Paris 8 + |
A pour affiliation premier auteur | Université Paris 8 + |
A pour auteur | Alain Lelu + |
A pour pays auteur | France + |
A pour pays premier auteur | France + |
A pour premier auteur | Mohammed Halleb + |
A pour résumé | Nous présentons une méthode de classificat … Nous présentons une méthode de classification thématique de grandes collections de textes, indépendante du langage, permettant de créer des interfaces de navigation hypertextuelles dans ces collections, quelle que soit la langue utilisée. Cette méthode caractérise les textes par leurs fréquences de n-grammes (séquences de n-caractères consécutifs). Plusieurs variantes de construction des vecteurs-textes, et de pondération de ceux-ci, sont présentées et comparées aux résultats obtenus avec une représentation des documents par la fréquence de leurs termes d’indexation. L’analyse de ces données assurée par un modèle neuronal développé (LEL 94). par un modèle neuronal développé (LEL 94). + |
A pour titre | Hypertextualisation automatique multilingue à partir des fréquences des n-grammes + |
Est dans les actes | H2PTM 1997 Paris + |