per page, with , order by , clip by
Results of 0 - 1 of about 0 (0.000 sec.)
Performances en indexation
@digest: f289ceafd8ab04dd9a42611cc3c2e24c
@id: 156877
@mdate: 2005-12-08T09:18:34Z
@size: 16102
@type: text/html
content-type: text/html; charset=ISO-8859-1
generator: Website XSL Stylesheet V2.1b1b1+
#keywords: indexation (28628), indexer (9025), indiquent (8275), environ (7700), chiffres (7616), groupes (7106), premiers (7079), tableau (6035), documents (5131), seconde (4797), temps (4751), optimisation (4413), derniers (4158), heures (3977), indexes (3965), taille (3958), augmentation (3936), performances (3495), capacite (3354), diminue (3303), resultats (3281), groupe (2627), serveur (2618), chiffre (2373), recherche (2059), requis (1985), minutes (1759), ajlsm (1714), necessaires (1609), mesures (1605), suivant (1521), premiere (1488)
Documentation SDX-2 Télécharger Installer Présentation Configuration Indexation Recherche OAI Javadoc Référence API-XSP Migration Schemas Performances Concepts Mesures AJLSM - 2003/01 Serveur Application Indexation Recherche Performances en indexation Voici quelques informations sur les temps d'indexation pour les trois bases de documents. Base 1 : petits documents Pour cette base, l'indexation s'est faite sur 1 030 000 documents, par groupes de 10 000 avant optimisation des index. Le temps d'indexation de 10 000 documents en fonction du nombre de documents déjà indexés est fourni dans le tableau suivant : Table 1. Temps d'indexation de la base 1 No du groupe Nb de documents déjà indexés Temps pour 10 000 documents Nb de documents à la seconde 1 0 1 758 s. 5,7 21 200 000 1 875 s. 5,3 41 400 000 2 115 s. 4,7 62 610 000 2 476 s. 4,2 82 810 000 2 716 s. 3,7 103 1 020 000 2 998 s. 3,3 Ces chiffres nous indiquent que pour indexer les 10 000 premiers documents, environ 30 minutes sont nécessaires, mais pour indexer les 10 000 derniers on a besoin de 50 minutes environ, pour une augmentation de 70 % du temps requis. Le temps total d'indexation a été de 65 heures environ, ce qui est trop important pour une telle collection. Ce chiffre pourrait être diminué en utilisant des groupes plus importants de documents avant optimisation, surtout sur un serveur avec plus de mémoire. Le volume de documents XML indexés est de 145 Mo environ, soit une capacité d'indexation de 37 Ko à la minute seulement. La taille des index Lucene est de 476 Mo environ. Base 2 : moyens documents Pour les moyens documents, l'indexation s'est faite sur 440 000 documents, par groupes de 10 000 également. Le tableau suivant fournit des informations similaires à la première base : Table 2. Temps d'indexation de la base 2 No du groupe Nb de documents déjà indexés Temps pour 10 000 documents Nb de documents à la seconde 1 0 1 821 s. 5,49 11 100 000 2 769 s. 3,61 21 200 000 2 396 s. 4,17 31 300 000 2 577 s. 3,88 41 400 000 2 831 s. 3,53 44 430 000 3 167 s. 3,16 La première remarque importante à signaler est la plus grande irrégularité dans ces résultats. Cela est dû au fait que pendant certaines périodes d'indexation, le serveur a été utilisé à d'autres fins. Ces chiffres nous indiquent que pour indexer les 10 000 premiers documents, environ 30 minutes sont encore nécessaires, et pour indexer les 10 000 derniers on a aussi besoin de 50 minutes environ, pour une augmentation de 70 % du temps requis. Ces chiffres sont conformes à la base 1, ce qui semble indiquer que pour cette dernière, les paramètres d'indexation n'étaient vraiment pas optimisés. Le temps total d'indexation a été de 35 heures environ, pour une taille d'environ 1,1Go de documents XML indexés. La capacité d'indexation est donc de 530 Ko de XML à la minute. Base 3 : grands documents Pour les grands documents de type article, nous avons indexé 23 144 documents par groupes de 500. Les 644 premiers documents ont été indexés préalablement et nous n'avons pas d'indication sur les temps nécessaires. Dans le tableau suivant, nous considérons que ces premiers 644 documents ne sont pas présents dans la base. Table 3. Temps d'indexation de la base 3 No du groupe Nb de documents déjà indexés Temps pour 10 000 documents Nb de documents à la seconde 2 500 260 s. 1,92 11 5 000 391 s. 1,46 22 10 500 470 s. 1,06 31 15 000 591 s. 0,85 41 20 000 618 s. 0,81 45 22 000 659 s. 0,76 Dans ces résultats, nous n'avons pas pris les groupes 1 et 21 parce que ces derniers présentaient des résultats très atypiques à cause d'autres utilsations du serveur. Nous constatons qu'entre le premier et le dernier groupe, le temps d'indexation augmente de 110 %, ce qui est nettement plus que pour les deux autres bases de documents. Le temps total d'indexation a été de 6,5 heures environ, pour environ 3,12 Go de documents XML, ce qui nous donne un volume d'indexation de 8 Mo à la minute. La taille des fichiers d'index est de 600 Mo environ, alors que les documents XML eux-mêmes occupent un espace de 3,12 Go dans l'entrepôt MySQL. La taille des index Lucene représente donc seulement 19 % des documents initiaux, ce qui peut se comprendre car un faible nombre de champs est stocké par l'outil de recherche. Auteur : Martin Sévigny ( AJLSM ) - 2003/02/01 Home Copyright © 2000, 2001, 2002, 2003, 2004 Ministère de la culture et de la communication, AJLSM. ...
http://www.gnu.org/savannah-checkouts/non-gnu/sdx/docs/html/doc-sdx2/fr/charge/mesures/ajlsm-200301/indexation.html - [detail] - [similar]
PREV NEXT
Powered by Hyper Estraier 1.4.13, with 213364 documents and 1081425 words.