El 12/06/2013 06:10 p. m., Delio Orozco González escribió:
Colegas:
Comprendo los argumentos de Ernesto pero no los suscribo porque me inmovilizan,
prefiero los de Hugo porque me alientan.
Con toda consideración,
La muestra del buscador que le di a Delio en video es funcional, esta echo 100%
en python, necesita muchas mejoras y gente que quieran colaborar en su
desarollo!
El nombre que hemos usado para el buscador es insignificante, lo
esencial es que haga su trabajo, en estos momentos estamos utilizando
bases de datos en mysql con indexador Sphinx.
Estamos haciendo el proyecto en python, no contamos con una guia para la
instalacion del mismo.
A modo de prueba hicimos una indexacion de los dominios .cu y en unos
minutos logramos indexar 1381 url entre dominio y subdominio solamente.
Estamos haciendo pruebas con ElasticSearch para en dependencia de los
resultados cambiar para esa plataforma
Les pongo algunas de las caracteristicas de cada indexador
Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
--------------------------------------------------
Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html)
-alta indexación y búsqueda desempeño;
-indexación avanzado y herramientas de consulta (texto flexible y rico
en funciones tokenizer, lenguaje de consulta, varios modos de
clasificación diferentes, etc);
-resultado avanzada ajustado post-procesamiento (SELECT con expresiones,
WHERE, ORDER BY, GROUP BY, etc sobre los resultados de búsqueda de texto);
-probada escalabilidad de hasta miles de millones de documentos,
terabytes de datos y miles de consultas por segundo;
-fácil integración con fuentes de datos SQL y XML, y SphinxAPI, SphinxQL
o interfaces de búsqueda SphinxSE;
-fácil de escala con las búsquedas distribuidas.
Ademas Sphinx...:
-tiene alta velocidad de indexación (hasta 10-15 MB / seg por núcleo en
un punto de referencia interno);
-tiene alta velocidad de búsqueda (hasta 150-250 consultas / segundo por
núcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto de
referencia interno);
-tiene una alta escalabilidad (mayores índices de racimo conocidas más
de 3 mil millones documentos, y una mayor actividad picos de más de
50.000.000 de consultas / día);
-ofrece un buen nivel de relevancia a través de la combinación de la
clasificación proximidad frase y (BM25) clasificación estadística;
-proporciona capacidades de búsqueda distribuidos;
-proporciona extractos de documentos (snippets) de generación;
-La opción de búsqueda desde la aplicación con SphinxAPI o interfaces de
SphinxQL, y desde dentro de MySQL con motor de almacenamiento
conectables SphinxSE;
-soportes booleano, frase, palabra proximidad y otros tipos de consultas;
-soporta múltiples campos de texto completo por documento (hasta 32 por
defecto);
-compatible con varios atributos adicionales por documento (grupos ie.,
marcas de tiempo, etc);
-apoya palabras vacías;
-apoya morfológicas palabra formas diccionarios;
-apoya tokenizar excepciones;
-apoya ambas codificaciones de un solo byte y UTF-8;
-apoya derivados (stemmers de Inglés, ruso, checo y el árabe son
incorporados y lematizadores para el francés, español, portugués,
italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés,
húngaro, están disponibles mediante la construcción de un tercero
libstemmer biblioteca );
-soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB,
NDB, Archive, etc son compatibles);
-PostgreSQL soporta de forma nativa;
-soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) de
forma nativa;
-... Tiene 50 + otras características que no aparecen aquí, se refieren
a API y manual de configuración!
Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
--------------------------------------------------
elasticsearch: (http://www.elasticsearch.org/overview/)
-datos en tiempo real: Los flujos de datos en su sistema todo el tiempo.
La pregunta es ... la rapidez con que los datos pueden llegar a ser una
idea? Con Elasticsearch, en tiempo real, es la única vez.
-repartido: Elasticsearch le permite empezar poco a poco, pero va a
crecer con su negocio. Está construido para escalar horizontalmente
fuera de la caja. Como usted necesita más capacidad, sólo tiene que
añadir más nodos, y dejar que el grupo reorganizarse para aprovechar el
hardware adicional.
-multi-tenancy: Un clúster puede alojar varios índices que se pueden
consultar de manera independiente o en grupo. Alias Índice permiten
agregar índices sobre la marcha, mientras que es transparente a la
aplicación.
-documento de orientación: Guarde entidades del mundo real complejos
Elasticsearch como documentos JSON estructurados. Todos los campos son
indexados por defecto, y todos los índices se pueden usar en una sola
consulta, para devolver resultados en impresionante velocidad.
-esquema de conexión: Elasticsearch permite que usted pueda comenzar
fácilmente. Mezcle un documento JSON y tratará de detectar la estructura
de datos, los datos de índice y hacer que buscar. Después, aplicar su
conocimiento específico del dominio de sus datos para personalizar la
forma en que se indexa sus datos.
-por la operación de persistencia: Elasticsearch pone primero su
seguridad de datos. Documentar los cambios se registran en los registros
de transacciones en varios nodos del clúster para minimizar la
posibilidad de pérdida de datos.
-construir sobre la parte superior de apache lucene: Apache Lucene es
una biblioteca de alto rendimiento con todas las funciones de
recuperación de información, escrita en Java. Elasticsearch utiliza
Lucene internamente para construir el estado de la técnica de búsqueda
distribuida y capacidades de análisis.
-herramientas de análisis de reales: La búsqueda no es sólo la búsqueda
de texto libre más - se trata de explorar sus datos. Entenderlo. Obtener
ideas que harán que su negocio mejor o mejorar su producto.
-alta disponibilidad: Grupos elasticsearch son resistentes - que detecta
y elimina los nodos fallidos, y reorganizarse para asegurar que sus
datos están seguros y accesibles.
-búsqueda de texto completo: Elasticsearch utiliza Lucene bajo las
sábanas para proporcionar las más poderosas capacidades de búsqueda de
texto completo disponibles en cualquier producto de código abierto.
Búsqueda viene con soporte multi-idioma, un lenguaje de consulta de gran
alcance, el apoyo para la geolocalización, el contexto conscientes
sugerencias hizo-que-medias, autocompletado y búsqueda de fragmentos.
-gestión de conflictos: Control de versiones optimista puede ser
utilizado cuando sea necesario para asegurar que los datos nunca se
pierde debido a cambios conflictivos de varios procesos
-api rest: Elasticsearch es impulsado API. Casi cualquier acción puede
ser peformed utilizando una API simple RESTful usando JSON a través de
HTTP. Una API ya existe en el idioma de su elección.
-apache 2 licencia de fuente abierta: Elasticsearch se puede descargar,
utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2
licenese, una de las licencias de código abierto más flexibles disponibles.
PD: Los interesados en ayudar, en este o cualquier otro proyecto estamos
interesados en colaborar.
--
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que est� limpio.
______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l