Re: [Gutl-l] Buscador de la red nacional

Lic. Ariel Garcia Reyes Fri, 14 Jun 2013 11:37:09 -0700

El 12/06/2013 06:10 p. m., Delio Orozco González escribió:

Colegas:
Comprendo los argumentos de Ernesto pero no los suscribo porque me inmovilizan, 
prefiero los de Hugo porque me alientan.
Con toda consideración,
La muestra del buscador que le di a Delio en video es funcional, esta echo 100% 
en python, necesita muchas mejoras y gente que quieran colaborar en su 
desarollo!

El nombre que hemos usado para el buscador es insignificante, loesencial es que haga su trabajo, en estos momentos estamos utilizandobases de datos en mysql con indexador Sphinx.Estamos haciendo el proyecto en python, no contamos con una guia para lainstalacion del mismo.A modo de prueba hicimos una indexacion de los dominios .cu y en unosminutos logramos indexar 1381 url entre dominio y subdominio solamente.Estamos haciendo pruebas con ElasticSearch para en dependencia de losresultados cambiar para esa plataforma

Les pongo algunas de las caracteristicas de cada indexador


Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
--------------------------------------------------
Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html)

-alta indexación y búsqueda desempeño;

-indexación avanzado y herramientas de consulta (texto flexible y ricoen funciones tokenizer, lenguaje de consulta, varios modos declasificación diferentes, etc);-resultado avanzada ajustado post-procesamiento (SELECT con expresiones,WHERE, ORDER BY, GROUP BY, etc sobre los resultados de búsqueda de texto);-probada escalabilidad de hasta miles de millones de documentos,terabytes de datos y miles de consultas por segundo;-fácil integración con fuentes de datos SQL y XML, y SphinxAPI, SphinxQLo interfaces de búsqueda SphinxSE;

-fácil de escala con las búsquedas distribuidas.

Ademas Sphinx...:

-tiene alta velocidad de indexación (hasta 10-15 MB / seg por núcleo enun punto de referencia interno);-tiene alta velocidad de búsqueda (hasta 150-250 consultas / segundo pornúcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto dereferencia interno);-tiene una alta escalabilidad (mayores índices de racimo conocidas másde 3 mil millones documentos, y una mayor actividad picos de más de50.000.000 de consultas / día);-ofrece un buen nivel de relevancia a través de la combinación de laclasificación proximidad frase y (BM25) clasificación estadística;

-proporciona capacidades de búsqueda distribuidos;
-proporciona extractos de documentos (snippets) de generación;

-La opción de búsqueda desde la aplicación con SphinxAPI o interfaces deSphinxQL, y desde dentro de MySQL con motor de almacenamientoconectables SphinxSE;

-soportes booleano, frase, palabra proximidad y otros tipos de consultas;

-soporta múltiples campos de texto completo por documento (hasta 32 pordefecto);-compatible con varios atributos adicionales por documento (grupos ie.,marcas de tiempo, etc);

-apoya palabras vacías;
-apoya morfológicas palabra formas diccionarios;
-apoya tokenizar excepciones;
-apoya ambas codificaciones de un solo byte y UTF-8;

-apoya derivados (stemmers de Inglés, ruso, checo y el árabe sonincorporados y lematizadores para el francés, español, portugués,italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés,húngaro, están disponibles mediante la construcción de un tercerolibstemmer biblioteca );-soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB,NDB, Archive, etc son compatibles);

-PostgreSQL soporta de forma nativa;

-soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) deforma nativa;-... Tiene 50 + otras características que no aparecen aquí, se refierena API y manual de configuración!



Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
--------------------------------------------------
elasticsearch: (http://www.elasticsearch.org/overview/)

-datos en tiempo real: Los flujos de datos en su sistema todo el tiempo.La pregunta es ... la rapidez con que los datos pueden llegar a ser unaidea? Con Elasticsearch, en tiempo real, es la única vez.-repartido: Elasticsearch le permite empezar poco a poco, pero va acrecer con su negocio. Está construido para escalar horizontalmentefuera de la caja. Como usted necesita más capacidad, sólo tiene queañadir más nodos, y dejar que el grupo reorganizarse para aprovechar elhardware adicional.-multi-tenancy: Un clúster puede alojar varios índices que se puedenconsultar de manera independiente o en grupo. Alias Índice permitenagregar índices sobre la marcha, mientras que es transparente a laaplicación.-documento de orientación: Guarde entidades del mundo real complejosElasticsearch como documentos JSON estructurados. Todos los campos sonindexados por defecto, y todos los índices se pueden usar en una solaconsulta, para devolver resultados en impresionante velocidad.-esquema de conexión: Elasticsearch permite que usted pueda comenzarfácilmente. Mezcle un documento JSON y tratará de detectar la estructurade datos, los datos de índice y hacer que buscar. Después, aplicar suconocimiento específico del dominio de sus datos para personalizar laforma en que se indexa sus datos.-por la operación de persistencia: Elasticsearch pone primero suseguridad de datos. Documentar los cambios se registran en los registrosde transacciones en varios nodos del clúster para minimizar laposibilidad de pérdida de datos.-construir sobre la parte superior de apache lucene: Apache Lucene esuna biblioteca de alto rendimiento con todas las funciones derecuperación de información, escrita en Java. Elasticsearch utilizaLucene internamente para construir el estado de la técnica de búsquedadistribuida y capacidades de análisis.-herramientas de análisis de reales: La búsqueda no es sólo la búsquedade texto libre más - se trata de explorar sus datos. Entenderlo. Obtenerideas que harán que su negocio mejor o mejorar su producto.-alta disponibilidad: Grupos elasticsearch son resistentes - que detectay elimina los nodos fallidos, y reorganizarse para asegurar que susdatos están seguros y accesibles.-búsqueda de texto completo: Elasticsearch utiliza Lucene bajo lassábanas para proporcionar las más poderosas capacidades de búsqueda detexto completo disponibles en cualquier producto de código abierto.Búsqueda viene con soporte multi-idioma, un lenguaje de consulta de granalcance, el apoyo para la geolocalización, el contexto conscientessugerencias hizo-que-medias, autocompletado y búsqueda de fragmentos.-gestión de conflictos: Control de versiones optimista puede serutilizado cuando sea necesario para asegurar que los datos nunca sepierde debido a cambios conflictivos de varios procesos-api rest: Elasticsearch es impulsado API. Casi cualquier acción puedeser peformed utilizando una API simple RESTful usando JSON a través deHTTP. Una API ya existe en el idioma de su elección.-apache 2 licencia de fuente abierta: Elasticsearch se puede descargar,utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2licenese, una de las licencias de código abierto más flexibles disponibles.

PD: Los interesados en ayudar, en este o cualquier otro proyecto estamosinteresados en colaborar.



--
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que est� limpio.

______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Re: [Gutl-l] Buscador de la red nacional

Responder a