[Ubuntu-ni] Tsearch2 - (donde están esos que eran (o son) buenos en español?)

Denis Torres denisjtorresg en gmail.com
Vie Ago 3 15:14:53 BST 2007


Hola

Por favor necesecito la ayuda de ustedes! :-) (donde están esos que eran (o
son) buenos en español?)

Estoy haciendo un programa que usa a PostgreSQL como SADBD, tengo que hacer
unas busquedas en campos de texto y he decidido utilizar tsearch2 (para
programar menos, y evitar inventar el agua helada).  tsearch2 un modulo para
extender PostgreSQL y realizar busqueda a como las llaman tecnicamente: Full
Text Indexing (nota: está salvaje denle una leidita en la web de ellos,
http://www.sai.msu.su/~megera/postgres/gist/tsearch/V2/).

Bueno para no hacer largo el cuento, estoy trabajando para agregarle al
tsearch2 un diccionario en español basado en ISpell, dado que tsearch2 solo
trae para ingles y ruso, y para eso necesito crear una lista de palabras que
no se deberían indexar ni tomar relevancia en las búsquedas.

Por ejemplo palabras (como preposiciones, artículos, etc) como:

a
además
al
ante
antes
cabe
como
cómo
contra
contrario
...
de, etc


No son indexadas ni tomadas en cuenta al realizar las busquedas pues no son
tópicos relevantes y ademas son muy comunes en cualquier texto (por ejemplo
si busco: "los pinguinos y los ñus son felices" la busqueda no deberia
arrojarme resultados donde en el texto solo coincidan las palabras "los, y,
son" y no salga nada de pinguinos ni ñus)

Asi que les pido su ayuda para que hagamos una lista de palabras en español
que no deberían ser relevantes en las busquedas por fas...


Yo ya llevo estas que he adjuntado en el archivo: espanol.stop, tambien les
adjunto el original en ingles para que se den una idea, cualquier palabra
que falte o crean que está de más (en el español) será bienvenida, no
importa si no me las dan en orden alfabético. Si no quieren mandarlas aca
para no llenar la lista (con más basura!, jejeje), yo no tengo problema si
llegan mi correo (denisjtorresg en gmail.com) pero por favor escriban en el
subject "espanol.stop.tsearch2" se los agradeceré y les prometo que cuando
lo aplique voy a mandarle lo que haga al los tipos del proyecto para ver si
agregan el locale es_NI en tsearch2, jejeje

PD: toda correción horrográfica también es bienvenida...



-- 
Saludes

..:: Denis Torres ::..
Linux User #380133
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: https://lists.ubuntu.com/archives/ubuntu-ni/attachments/20070803/2e2a2756/attachment.htm 
------------ próxima parte ------------
Se ha borrado un mensaje que no está en formato texto plano...
Nombre     : english.stop
Tipo       : application/octet-stream
Tamaño     : 622 bytes
Descripción: no disponible
Url        : https://lists.ubuntu.com/archives/ubuntu-ni/attachments/20070803/2e2a2756/attachment.obj 
------------ próxima parte ------------
Se ha borrado un mensaje que no está en formato texto plano...
Nombre     : espanol.stop
Tipo       : application/octet-stream
Tamaño     : 471 bytes
Descripción: no disponible
Url        : https://lists.ubuntu.com/archives/ubuntu-ni/attachments/20070803/2e2a2756/attachment-0001.obj 


Más información sobre la lista de distribución Ubuntu-ni