Re: [Gutl-l] Buscador de la red nacional

Delio Orozco González Fri, 14 Jun 2013 13:32:18 -0700

Ariel:

"La fe, sin las obras no es la fe, la fe es la vida y la acción"; por tanto, tu 
y tus colegas tienen la fe de los hombres creadores y nosotros tenemos fe en 
que vuestro buscador sea de utilidad a toda la comunidad. Espero, esperamos por 
él.


Con toda consideración, 

-- 
Delio Orozco González.
Historiador.
Director Archivo Histórico.
Manzanillo de Cuba.

On Fri, 14 Jun 2013 14:33:50 -0400
"Lic. Ariel Garcia Reyes" <informatic...@cfg.ausa.cu> wrote:

> El 12/06/2013 06:10 p. m., Delio Orozco González escribió:
> > Colegas:
> > Comprendo los argumentos de Ernesto pero no los suscribo porque me 
> > inmovilizan, prefiero los de Hugo porque me alientan.
> > Con toda consideración,
> > La muestra del buscador que le di a Delio en video es funcional, esta echo 
> > 100% en python, necesita muchas mejoras y gente que quieran colaborar en su 
> > desarollo!
> El nombre que hemos usado para el buscador es insignificante, lo 
> esencial es que haga su trabajo, en estos momentos estamos utilizando 
> bases de datos en mysql con indexador Sphinx.
> Estamos haciendo el proyecto en python, no contamos con una guia para la 
> instalacion del mismo.
> A modo de prueba hicimos una indexacion de los dominios .cu y en unos 
> minutos logramos indexar 1381 url entre dominio y subdominio solamente.
> Estamos haciendo pruebas con ElasticSearch para en dependencia de los 
> resultados cambiar para esa plataforma
> Les pongo algunas de las caracteristicas de cada indexador
> 
> Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
> --------------------------------------------------
> Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html)
> 
> -alta indexación y búsqueda desempeño;
> -indexación avanzado y herramientas de consulta (texto flexible y rico 
> en funciones tokenizer, lenguaje de consulta, varios modos de 
> clasificación diferentes, etc);
> -resultado avanzada ajustado post-procesamiento (SELECT con expresiones, 
> WHERE, ORDER BY, GROUP BY, etc sobre los resultados de búsqueda de texto);
> -probada escalabilidad de hasta miles de millones de documentos, 
> terabytes de datos y miles de consultas por segundo;
> -fácil integración con fuentes de datos SQL y XML, y SphinxAPI, SphinxQL 
> o interfaces de búsqueda SphinxSE;
> -fácil de escala con las búsquedas distribuidas.
> 
> Ademas Sphinx...:
> -tiene alta velocidad de indexación (hasta 10-15 MB / seg por núcleo en 
> un punto de referencia interno);
> -tiene alta velocidad de búsqueda (hasta 150-250 consultas / segundo por 
> núcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto de 
> referencia interno);
> -tiene una alta escalabilidad (mayores índices de racimo conocidas más 
> de 3 mil millones documentos, y una mayor actividad picos de más de 
> 50.000.000 de consultas / día);
> -ofrece un buen nivel de relevancia a través de la combinación de la 
> clasificación proximidad frase y (BM25) clasificación estadística;
> -proporciona capacidades de búsqueda distribuidos;
> -proporciona extractos de documentos (snippets) de generación;
> -La opción de búsqueda desde la aplicación con SphinxAPI o interfaces de 
> SphinxQL, y desde dentro de MySQL con motor de almacenamiento 
> conectables SphinxSE;
> -soportes booleano, frase, palabra proximidad y otros tipos de consultas;
> -soporta múltiples campos de texto completo por documento (hasta 32 por 
> defecto);
> -compatible con varios atributos adicionales por documento (grupos ie., 
> marcas de tiempo, etc);
> -apoya palabras vacías;
> -apoya morfológicas palabra formas diccionarios;
> -apoya tokenizar excepciones;
> -apoya ambas codificaciones de un solo byte y UTF-8;
> -apoya derivados (stemmers de Inglés, ruso, checo y el árabe son 
> incorporados y lematizadores para el francés, español, portugués, 
> italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés, 
> húngaro, están disponibles mediante la construcción de un tercero 
> libstemmer biblioteca );
> -soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB, 
> NDB, Archive, etc son compatibles);
> -PostgreSQL soporta de forma nativa;
> -soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) de 
> forma nativa;
> -... Tiene 50 + otras características que no aparecen aquí, se refieren 
> a API y manual de configuración!
> 
> 
> Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
> --------------------------------------------------
> elasticsearch: (http://www.elasticsearch.org/overview/)
> 
> -datos en tiempo real: Los flujos de datos en su sistema todo el tiempo. 
> La pregunta es ... la rapidez con que los datos pueden llegar a ser una 
> idea? Con Elasticsearch, en tiempo real, es la única vez.
> -repartido: Elasticsearch le permite empezar poco a poco, pero va a 
> crecer con su negocio. Está construido para escalar horizontalmente 
> fuera de la caja. Como usted necesita más capacidad, sólo tiene que 
> añadir más nodos, y dejar que el grupo reorganizarse para aprovechar el 
> hardware adicional.
> -multi-tenancy: Un clúster puede alojar varios índices que se pueden 
> consultar de manera independiente o en grupo. Alias Índice permiten 
> agregar índices sobre la marcha, mientras que es transparente a la 
> aplicación.
> -documento de orientación: Guarde entidades del mundo real complejos 
> Elasticsearch como documentos JSON estructurados. Todos los campos son 
> indexados por defecto, y todos los índices se pueden usar en una sola 
> consulta, para devolver resultados en impresionante velocidad.
> -esquema de conexión: Elasticsearch permite que usted pueda comenzar 
> fácilmente. Mezcle un documento JSON y tratará de detectar la estructura 
> de datos, los datos de índice y hacer que buscar. Después, aplicar su 
> conocimiento específico del dominio de sus datos para personalizar la 
> forma en que se indexa sus datos.
> -por la operación de persistencia: Elasticsearch pone primero su 
> seguridad de datos. Documentar los cambios se registran en los registros 
> de transacciones en varios nodos del clúster para minimizar la 
> posibilidad de pérdida de datos.
> -construir sobre la parte superior de apache lucene: Apache Lucene es 
> una biblioteca de alto rendimiento con todas las funciones de 
> recuperación de información, escrita en Java. Elasticsearch utiliza 
> Lucene internamente para construir el estado de la técnica de búsqueda 
> distribuida y capacidades de análisis.
> -herramientas de análisis de reales: La búsqueda no es sólo la búsqueda 
> de texto libre más - se trata de explorar sus datos. Entenderlo. Obtener 
> ideas que harán que su negocio mejor o mejorar su producto.
> -alta disponibilidad: Grupos elasticsearch son resistentes - que detecta 
> y elimina los nodos fallidos, y reorganizarse para asegurar que sus 
> datos están seguros y accesibles.
> -búsqueda de texto completo: Elasticsearch utiliza Lucene bajo las 
> sábanas para proporcionar las más poderosas capacidades de búsqueda de 
> texto completo disponibles en cualquier producto de código abierto. 
> Búsqueda viene con soporte multi-idioma, un lenguaje de consulta de gran 
> alcance, el apoyo para la geolocalización, el contexto conscientes 
> sugerencias hizo-que-medias, autocompletado y búsqueda de fragmentos.
> -gestión de conflictos: Control de versiones optimista puede ser 
> utilizado cuando sea necesario para asegurar que los datos nunca se 
> pierde debido a cambios conflictivos de varios procesos
> -api rest: Elasticsearch es impulsado API. Casi cualquier acción puede 
> ser peformed utilizando una API simple RESTful usando JSON a través de 
> HTTP. Una API ya existe en el idioma de su elección.
> -apache 2 licencia de fuente abierta: Elasticsearch se puede descargar, 
> utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2 
> licenese, una de las licencias de código abierto más flexibles disponibles.
> 
> PD: Los interesados en ayudar, en este o cualquier otro proyecto estamos 
> interesados en colaborar.
> 
> 
> -- 
> Este mensaje ha sido analizado por MailScanner
> en busca de virus y otros contenidos peligrosos,
> y se considera que est_ limpio.
> 


-- 
Delio Orozco González.
Historiador.
Director Archivo Histórico.
Manzanillo de Cuba.

-- 
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que est� limpio.

______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Re: [Gutl-l] Buscador de la red nacional

Responder a