script de génération de corpus à partir de factiva
script de génération de corpus à partir de factiva
-- Le script est désormais intégré à Tirésias Desktop --
Voici le script qui permet de transformer des articles récupérés via la base de donnée Factiva en corpus pour Prospéro.
Nous invitons ses utilisateurs à s'assurer et à respecter les droits liés aux textes fournis par Factiva.
Cette nouvelle version du script parcourt les fichiers XML et les fichiers HTM du dossier dans lequel il est lancé. Il nécessite pour le codage des noms de support et des noms de fichier la présence un fichier support.publi dans le même répertoire. Pour mettre à jour de manière collaborative ce fichier, nous vous rappelons qu'un outil en ligne est disponible : voir ce fil du forum.
Voici le script qui permet de transformer des articles récupérés via la base de donnée Factiva en corpus pour Prospéro.
Nous invitons ses utilisateurs à s'assurer et à respecter les droits liés aux textes fournis par Factiva.
Cette nouvelle version du script parcourt les fichiers XML et les fichiers HTM du dossier dans lequel il est lancé. Il nécessite pour le codage des noms de support et des noms de fichier la présence un fichier support.publi dans le même répertoire. Pour mettre à jour de manière collaborative ce fichier, nous vous rappelons qu'un outil en ligne est disponible : voir ce fil du forum.
Re: script de génération de corpus à partir de factiva
J'hésite de poser une question certainement stupide, mais... sur Factiva, je ne trouve plus l'option qui permettrait de sauvegarder les articles en format XML. Une fois que j'ai ma recherche, le moteur ne propose de sauvegarder les articles qu'en format pdf ou rtf. Je pense qu'encore une fois, j'ai oublié quelque chose de simple mais essentiel au cours de derniers mois...
Markku
Markku
Re: script de génération de corpus à partir de factiva
Effectivement l'option à disparu il y a quelques semaines, ta question est très pertinente.
Pour faire face à ce problème, le nouveau script fonctionne sur les fichiers .htm qu'on obtient en enregistrant directement (l'icône représentant une disquette, fossile d'un objet disparu...).
Pour faire face à ce problème, le nouveau script fonctionne sur les fichiers .htm qu'on obtient en enregistrant directement (l'icône représentant une disquette, fossile d'un objet disparu...).
Re: script de génération de corpus à partir de factiva
Bonjour,
Je ne trouve pas le bouton htm ?
Ce bouton est sur Prospéro ? Sur le site de factiva ? ou sur le program de récupération ?
Argghhhhhh !
Je ne trouve pas le bouton htm ?
Ce bouton est sur Prospéro ? Sur le site de factiva ? ou sur le program de récupération ?
Argghhhhhh !
Re: script de génération de corpus à partir de factiva
Don't panic !
C'est très facile.
Voici la première étape qui te permettra d'importer les articles.
La démonstration décrit précisément une recherche 'simple' par mot clé sur le site de factiva jusqu'à l'enregistrement sur le disc.
http://www.dailymotion.com/video/k1lNi5QBjTv1eR2VLCd
La seconde étape te montre comment traiter les données importées.
Je n'utilise pas le dernier script disponible que propose Josquin mais c'est exactement la même démarche.
Tu verras que des textes ne sont pas référencés dans le fichier support.publi et du coup, leur support est inconnu. La vidéo te montre alors comment faire un référencement sur le support.publi.
http://www.dailymotion.com/video/k7qqGTzV9oYq6i2VLFG
A bientôt.
C'est très facile.
Voici la première étape qui te permettra d'importer les articles.
La démonstration décrit précisément une recherche 'simple' par mot clé sur le site de factiva jusqu'à l'enregistrement sur le disc.
http://www.dailymotion.com/video/k1lNi5QBjTv1eR2VLCd
La seconde étape te montre comment traiter les données importées.
Je n'utilise pas le dernier script disponible que propose Josquin mais c'est exactement la même démarche.
Tu verras que des textes ne sont pas référencés dans le fichier support.publi et du coup, leur support est inconnu. La vidéo te montre alors comment faire un référencement sur le support.publi.
http://www.dailymotion.com/video/k7qqGTzV9oYq6i2VLFG
A bientôt.
Re: script de génération de corpus à partir de factiva
Bonjour,
et encore une question de novice !
Je viens de constituer un corpus de fichier htm avec factiva et
j'essaie de le traiter avec tirésias mais ça ne marche pas
complètement.
Le logiciel créé des fichiers txt contenant chacun un article (c'est
déjà pas mal) mais le titre n'est pas codé. Chaque document s'intitule
sur le modèle "PBSUPPORT00C00A". Pourtant, j'utilise le fichier .publi
à jour que j'ai récupéré sur le site et il contient les titres des
publications sur lesquelles je travaille.
J'ai essayé en déplaçant le fichier .publi d'un répertoire à l'autre
mais cela ne change rien.
Le problème est que je ne parviens pas à accéder aux tutos vidéo en ligne, donc peut-être ai-je mal procédé (y a-t-il un endroit particulier pour placer le fichier .publi ou les documents htm ?)
Merci d'avance de votre réponse !
et encore une question de novice !
Je viens de constituer un corpus de fichier htm avec factiva et
j'essaie de le traiter avec tirésias mais ça ne marche pas
complètement.
Le logiciel créé des fichiers txt contenant chacun un article (c'est
déjà pas mal) mais le titre n'est pas codé. Chaque document s'intitule
sur le modèle "PBSUPPORT00C00A". Pourtant, j'utilise le fichier .publi
à jour que j'ai récupéré sur le site et il contient les titres des
publications sur lesquelles je travaille.
J'ai essayé en déplaçant le fichier .publi d'un répertoire à l'autre
mais cela ne change rien.
Le problème est que je ne parviens pas à accéder aux tutos vidéo en ligne, donc peut-être ai-je mal procédé (y a-t-il un endroit particulier pour placer le fichier .publi ou les documents htm ?)
Merci d'avance de votre réponse !
Re: script de génération de corpus à partir de factiva
Bonjour à tous,
Je débute sur Prospero, et j'ai le même problème que Mathieu. J'arrive à récupérer les articles sur Factiva, puis à les traiter de telle manière qu'1 article = 1 fichier txt. Toutefois, je ne parviens pas à les nommer automatiquement, même si j'ai indiqué la source du fichier support.publi.
Quelqu'un pour m'aider ?
Merci d'avance du tuyau.
Vivien
Je débute sur Prospero, et j'ai le même problème que Mathieu. J'arrive à récupérer les articles sur Factiva, puis à les traiter de telle manière qu'1 article = 1 fichier txt. Toutefois, je ne parviens pas à les nommer automatiquement, même si j'ai indiqué la source du fichier support.publi.
Quelqu'un pour m'aider ?
Merci d'avance du tuyau.
Vivien
Re: script de génération de corpus à partir de factiva
Bonjour,
est-ce que vous pourriez joindre un fichier qui pose problème ? histoire de mieux comprendre ce qui se passe
J
est-ce que vous pourriez joindre un fichier qui pose problème ? histoire de mieux comprendre ce qui se passe
J
Re: script de génération de corpus à partir de factiva
Je n'ai pas ce pb ; en revanche (en partant de Factiva), j'obtiens quelques supports inconnus dont je ne parviens à me débarrasser.
Plusieurs d'entre eux sont sous la forme : support inconnu : 18:55 GMT (ou d'autres heures)...
Puis, j'ai "support inconnu: La Dépêche du Midi", j'ai beau actualiser le support.publi, cela reste inconnu...
Merci pour ce beau projet!
Plusieurs d'entre eux sont sous la forme : support inconnu : 18:55 GMT (ou d'autres heures)...
Puis, j'ai "support inconnu: La Dépêche du Midi", j'ai beau actualiser le support.publi, cela reste inconnu...
Merci pour ce beau projet!
Re: script de génération de corpus à partir de factiva
Avez-vous essayé de rajouter manuellement Dépêche du midi dans le support.publi ?
Who is online
Users browsing this forum: No registered users and 1 guest