El 12/06/2013 06:10 p. m., Delio Orozco González escribió:
Colegas:
Comprendo los argumentos de Ernesto pero no los suscribo porque me inmovilizan, 
prefiero los de Hugo porque me alientan.
Con toda consideración,
La muestra del buscador que le di a Delio en video es funcional, esta echo 100% 
en python, necesita muchas mejoras y gente que quieran colaborar en su 
desarollo!
El nombre que hemos usado para el buscador es insignificante, lo esencial es que haga su trabajo, en estos momentos estamos utilizando bases de datos en mysql con indexador Sphinx. Estamos haciendo el proyecto en python, no contamos con una guia para la instalacion del mismo. A modo de prueba hicimos una indexacion de los dominios .cu y en unos minutos logramos indexar 1381 url entre dominio y subdominio solamente. Estamos haciendo pruebas con ElasticSearch para en dependencia de los resultados cambiar para esa plataforma
Les pongo algunas de las caracteristicas de cada indexador

Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
--------------------------------------------------
Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html)

-alta indexación y búsqueda desempeño;
-indexación avanzado y herramientas de consulta (texto flexible y rico en funciones tokenizer, lenguaje de consulta, varios modos de clasificación diferentes, etc); -resultado avanzada ajustado post-procesamiento (SELECT con expresiones, WHERE, ORDER BY, GROUP BY, etc sobre los resultados de búsqueda de texto); -probada escalabilidad de hasta miles de millones de documentos, terabytes de datos y miles de consultas por segundo; -fácil integración con fuentes de datos SQL y XML, y SphinxAPI, SphinxQL o interfaces de búsqueda SphinxSE;
-fácil de escala con las búsquedas distribuidas.

Ademas Sphinx...:
-tiene alta velocidad de indexación (hasta 10-15 MB / seg por núcleo en un punto de referencia interno); -tiene alta velocidad de búsqueda (hasta 150-250 consultas / segundo por núcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto de referencia interno); -tiene una alta escalabilidad (mayores índices de racimo conocidas más de 3 mil millones documentos, y una mayor actividad picos de más de 50.000.000 de consultas / día); -ofrece un buen nivel de relevancia a través de la combinación de la clasificación proximidad frase y (BM25) clasificación estadística;
-proporciona capacidades de búsqueda distribuidos;
-proporciona extractos de documentos (snippets) de generación;
-La opción de búsqueda desde la aplicación con SphinxAPI o interfaces de SphinxQL, y desde dentro de MySQL con motor de almacenamiento conectables SphinxSE;
-soportes booleano, frase, palabra proximidad y otros tipos de consultas;
-soporta múltiples campos de texto completo por documento (hasta 32 por defecto); -compatible con varios atributos adicionales por documento (grupos ie., marcas de tiempo, etc);
-apoya palabras vacías;
-apoya morfológicas palabra formas diccionarios;
-apoya tokenizar excepciones;
-apoya ambas codificaciones de un solo byte y UTF-8;
-apoya derivados (stemmers de Inglés, ruso, checo y el árabe son incorporados y lematizadores para el francés, español, portugués, italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés, húngaro, están disponibles mediante la construcción de un tercero libstemmer biblioteca ); -soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB, NDB, Archive, etc son compatibles);
-PostgreSQL soporta de forma nativa;
-soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) de forma nativa; -... Tiene 50 + otras características que no aparecen aquí, se refieren a API y manual de configuración!


Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
--------------------------------------------------
elasticsearch: (http://www.elasticsearch.org/overview/)

-datos en tiempo real: Los flujos de datos en su sistema todo el tiempo. La pregunta es ... la rapidez con que los datos pueden llegar a ser una idea? Con Elasticsearch, en tiempo real, es la única vez. -repartido: Elasticsearch le permite empezar poco a poco, pero va a crecer con su negocio. Está construido para escalar horizontalmente fuera de la caja. Como usted necesita más capacidad, sólo tiene que añadir más nodos, y dejar que el grupo reorganizarse para aprovechar el hardware adicional. -multi-tenancy: Un clúster puede alojar varios índices que se pueden consultar de manera independiente o en grupo. Alias ​​Índice permiten agregar índices sobre la marcha, mientras que es transparente a la aplicación. -documento de orientación: Guarde entidades del mundo real complejos Elasticsearch como documentos JSON estructurados. Todos los campos son indexados por defecto, y todos los índices se pueden usar en una sola consulta, para devolver resultados en impresionante velocidad. -esquema de conexión: Elasticsearch permite que usted pueda comenzar fácilmente. Mezcle un documento JSON y tratará de detectar la estructura de datos, los datos de índice y hacer que buscar. Después, aplicar su conocimiento específico del dominio de sus datos para personalizar la forma en que se indexa sus datos. -por la operación de persistencia: Elasticsearch pone primero su seguridad de datos. Documentar los cambios se registran en los registros de transacciones en varios nodos del clúster para minimizar la posibilidad de pérdida de datos. -construir sobre la parte superior de apache lucene: Apache Lucene es una biblioteca de alto rendimiento con todas las funciones de recuperación de información, escrita en Java. Elasticsearch utiliza Lucene internamente para construir el estado de la técnica de búsqueda distribuida y capacidades de análisis. -herramientas de análisis de reales: La búsqueda no es sólo la búsqueda de texto libre más - se trata de explorar sus datos. Entenderlo. Obtener ideas que harán que su negocio mejor o mejorar su producto. -alta disponibilidad: Grupos elasticsearch son resistentes - que detecta y elimina los nodos fallidos, y reorganizarse para asegurar que sus datos están seguros y accesibles. -búsqueda de texto completo: Elasticsearch utiliza Lucene bajo las sábanas para proporcionar las más poderosas capacidades de búsqueda de texto completo disponibles en cualquier producto de código abierto. Búsqueda viene con soporte multi-idioma, un lenguaje de consulta de gran alcance, el apoyo para la geolocalización, el contexto conscientes sugerencias hizo-que-medias, autocompletado y búsqueda de fragmentos. -gestión de conflictos: Control de versiones optimista puede ser utilizado cuando sea necesario para asegurar que los datos nunca se pierde debido a cambios conflictivos de varios procesos -api rest: Elasticsearch es impulsado API. Casi cualquier acción puede ser peformed utilizando una API simple RESTful usando JSON a través de HTTP. Una API ya existe en el idioma de su elección. -apache 2 licencia de fuente abierta: Elasticsearch se puede descargar, utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2 licenese, una de las licencias de código abierto más flexibles disponibles.

PD: Los interesados en ayudar, en este o cualquier otro proyecto estamos interesados en colaborar.


--
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que est� limpio.

______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Responder a