Ariel: "La fe, sin las obras no es la fe, la fe es la vida y la acción"; por tanto, tu y tus colegas tienen la fe de los hombres creadores y nosotros tenemos fe en que vuestro buscador sea de utilidad a toda la comunidad. Espero, esperamos por él.
Con toda consideración, -- Delio Orozco González. Historiador. Director Archivo Histórico. Manzanillo de Cuba. On Fri, 14 Jun 2013 14:33:50 -0400 "Lic. Ariel Garcia Reyes" <informatic...@cfg.ausa.cu> wrote: > El 12/06/2013 06:10 p. m., Delio Orozco González escribió: > > Colegas: > > Comprendo los argumentos de Ernesto pero no los suscribo porque me > > inmovilizan, prefiero los de Hugo porque me alientan. > > Con toda consideración, > > La muestra del buscador que le di a Delio en video es funcional, esta echo > > 100% en python, necesita muchas mejoras y gente que quieran colaborar en su > > desarollo! > El nombre que hemos usado para el buscador es insignificante, lo > esencial es que haga su trabajo, en estos momentos estamos utilizando > bases de datos en mysql con indexador Sphinx. > Estamos haciendo el proyecto en python, no contamos con una guia para la > instalacion del mismo. > A modo de prueba hicimos una indexacion de los dominios .cu y en unos > minutos logramos indexar 1381 url entre dominio y subdominio solamente. > Estamos haciendo pruebas con ElasticSearch para en dependencia de los > resultados cambiar para esa plataforma > Les pongo algunas de las caracteristicas de cada indexador > > Algunas Caracteristicas de los Indexadores (Traduccion Literal de google) > -------------------------------------------------- > Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html) > > -alta indexación y búsqueda desempeño; > -indexación avanzado y herramientas de consulta (texto flexible y rico > en funciones tokenizer, lenguaje de consulta, varios modos de > clasificación diferentes, etc); > -resultado avanzada ajustado post-procesamiento (SELECT con expresiones, > WHERE, ORDER BY, GROUP BY, etc sobre los resultados de búsqueda de texto); > -probada escalabilidad de hasta miles de millones de documentos, > terabytes de datos y miles de consultas por segundo; > -fácil integración con fuentes de datos SQL y XML, y SphinxAPI, SphinxQL > o interfaces de búsqueda SphinxSE; > -fácil de escala con las búsquedas distribuidas. > > Ademas Sphinx...: > -tiene alta velocidad de indexación (hasta 10-15 MB / seg por núcleo en > un punto de referencia interno); > -tiene alta velocidad de búsqueda (hasta 150-250 consultas / segundo por > núcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto de > referencia interno); > -tiene una alta escalabilidad (mayores índices de racimo conocidas más > de 3 mil millones documentos, y una mayor actividad picos de más de > 50.000.000 de consultas / día); > -ofrece un buen nivel de relevancia a través de la combinación de la > clasificación proximidad frase y (BM25) clasificación estadística; > -proporciona capacidades de búsqueda distribuidos; > -proporciona extractos de documentos (snippets) de generación; > -La opción de búsqueda desde la aplicación con SphinxAPI o interfaces de > SphinxQL, y desde dentro de MySQL con motor de almacenamiento > conectables SphinxSE; > -soportes booleano, frase, palabra proximidad y otros tipos de consultas; > -soporta múltiples campos de texto completo por documento (hasta 32 por > defecto); > -compatible con varios atributos adicionales por documento (grupos ie., > marcas de tiempo, etc); > -apoya palabras vacías; > -apoya morfológicas palabra formas diccionarios; > -apoya tokenizar excepciones; > -apoya ambas codificaciones de un solo byte y UTF-8; > -apoya derivados (stemmers de Inglés, ruso, checo y el árabe son > incorporados y lematizadores para el francés, español, portugués, > italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés, > húngaro, están disponibles mediante la construcción de un tercero > libstemmer biblioteca ); > -soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB, > NDB, Archive, etc son compatibles); > -PostgreSQL soporta de forma nativa; > -soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) de > forma nativa; > -... Tiene 50 + otras características que no aparecen aquí, se refieren > a API y manual de configuración! > > > Algunas Caracteristicas de los Indexadores (Traduccion Literal de google) > -------------------------------------------------- > elasticsearch: (http://www.elasticsearch.org/overview/) > > -datos en tiempo real: Los flujos de datos en su sistema todo el tiempo. > La pregunta es ... la rapidez con que los datos pueden llegar a ser una > idea? Con Elasticsearch, en tiempo real, es la única vez. > -repartido: Elasticsearch le permite empezar poco a poco, pero va a > crecer con su negocio. Está construido para escalar horizontalmente > fuera de la caja. Como usted necesita más capacidad, sólo tiene que > añadir más nodos, y dejar que el grupo reorganizarse para aprovechar el > hardware adicional. > -multi-tenancy: Un clúster puede alojar varios índices que se pueden > consultar de manera independiente o en grupo. Alias Índice permiten > agregar índices sobre la marcha, mientras que es transparente a la > aplicación. > -documento de orientación: Guarde entidades del mundo real complejos > Elasticsearch como documentos JSON estructurados. Todos los campos son > indexados por defecto, y todos los índices se pueden usar en una sola > consulta, para devolver resultados en impresionante velocidad. > -esquema de conexión: Elasticsearch permite que usted pueda comenzar > fácilmente. Mezcle un documento JSON y tratará de detectar la estructura > de datos, los datos de índice y hacer que buscar. Después, aplicar su > conocimiento específico del dominio de sus datos para personalizar la > forma en que se indexa sus datos. > -por la operación de persistencia: Elasticsearch pone primero su > seguridad de datos. Documentar los cambios se registran en los registros > de transacciones en varios nodos del clúster para minimizar la > posibilidad de pérdida de datos. > -construir sobre la parte superior de apache lucene: Apache Lucene es > una biblioteca de alto rendimiento con todas las funciones de > recuperación de información, escrita en Java. Elasticsearch utiliza > Lucene internamente para construir el estado de la técnica de búsqueda > distribuida y capacidades de análisis. > -herramientas de análisis de reales: La búsqueda no es sólo la búsqueda > de texto libre más - se trata de explorar sus datos. Entenderlo. Obtener > ideas que harán que su negocio mejor o mejorar su producto. > -alta disponibilidad: Grupos elasticsearch son resistentes - que detecta > y elimina los nodos fallidos, y reorganizarse para asegurar que sus > datos están seguros y accesibles. > -búsqueda de texto completo: Elasticsearch utiliza Lucene bajo las > sábanas para proporcionar las más poderosas capacidades de búsqueda de > texto completo disponibles en cualquier producto de código abierto. > Búsqueda viene con soporte multi-idioma, un lenguaje de consulta de gran > alcance, el apoyo para la geolocalización, el contexto conscientes > sugerencias hizo-que-medias, autocompletado y búsqueda de fragmentos. > -gestión de conflictos: Control de versiones optimista puede ser > utilizado cuando sea necesario para asegurar que los datos nunca se > pierde debido a cambios conflictivos de varios procesos > -api rest: Elasticsearch es impulsado API. Casi cualquier acción puede > ser peformed utilizando una API simple RESTful usando JSON a través de > HTTP. Una API ya existe en el idioma de su elección. > -apache 2 licencia de fuente abierta: Elasticsearch se puede descargar, > utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2 > licenese, una de las licencias de código abierto más flexibles disponibles. > > PD: Los interesados en ayudar, en este o cualquier otro proyecto estamos > interesados en colaborar. > > > -- > Este mensaje ha sido analizado por MailScanner > en busca de virus y otros contenidos peligrosos, > y se considera que est_ limpio. > -- Delio Orozco González. Historiador. Director Archivo Histórico. Manzanillo de Cuba. -- Este mensaje ha sido analizado por MailScanner en busca de virus y otros contenidos peligrosos, y se considera que est� limpio.
______________________________________________________________________ Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba. Gutl-l@jovenclub.cu https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l