Re: [Gutl-l] Buscador de la red nacional

Alberto José García Fumero Mon, 17 Jun 2013 05:42:15 -0700

Aleluya.

Aunque todo me sabe a chino, son magníficas noticias. ;-)


El Dr. Torricella es una magnífica persona; estoy seguro de que hará
todo lo posible y qu esté en su mano. Que por cierto, en mi opinión es
el mejor especialista en sistemas de catalogación para bibliotecas y el
uso de bases de datos bibliográficos basadas en Isis. Salúdenlo de mi
parte, que le he perdido la pista.

He probado con todos los buscadores que has reseñado, y excepto el de
TABACOM (que lo uso por razones obvias) y el de Reduniv (bastante
rápido) no se accede a ninguno. El buscador en humanos.uci.cu se atasca
y eterniza.

No sé si es porque solo tengo navegación nacional. De todas formas, por
alguna oscura causa se tiende a restringir el acceso desde fuera del
propio nodo.

Fumero


El lun, 17-06-2013 a las 01:45 -0400, Abel Meneses Abad escribió:
> Quiero empezar diciendo que estoy haciendo mi doctorado en minería de texto, 
> específicamente en detección de plagio parafrástico.
> Soy el primer productor que tuvo el proyecto Sunshine, y lo apoyé cuando Eddy 
> era aún estudiante y lo promoví: usa XAPIAN y Django. Hoy está abandonado. 
> Existe la URL para la UCI unicamente: http://sunshine.prod.uci.cu
> 
> Hace meses investigo un API, que funcione para bajos rendimientos. Desconocía 
> a Sphinx, que por lo visto tiene el mismo nombre que el generador de 
> documentación en el que se implementan muchos textos de python. Estoy leyendo 
> sobre él ahora mismo en Internet.
> 
> Tenemos un nuevo proyecto aprobado por el consejo científico de nuestra 
> universidad para hacer un proyecto similar que permita probar varias tesis de 
> doctorado. Mantengo relación con los grupos de minería de texto de la UCLV, 
> Universidad de Holguín y de la CUJAE. No logro encontrar a nadie de Santiago 
> de Cuba que me dijeron están dispersos desde que murió Aurora. ¿Alguien tiene 
> un contacto relevante? Este proyecto se desplegará también en la Universidad 
> de Camagüey como resultado de mi doctorado, pues mi tutor es de esta 
> universidad, el Dr Julio Madera que organizó el FLISOL en Camagüey.
> 
> Casualmente y sin haber leído esta lista de correo, he escrito el viernes a 
> quien creo puede darnos el hosting. 

> ¡El MES! El Dr.Torricella quien se dedica a la gestión bibliográfica en el 
> ministerio, y a quien vi en la UCI en 

> una conferencia fue el destinatario de mi correo ayer. En realidad queremos 
> proponer el proyecto de Sunshine 

> para sustituir lo que haya por ahí, siempre y cuando demuestre ser mejor. 
> ¿Por qué? pues es más fácil saber 

> lo que se hace en el mundo sobre ciencia, que lo que se hace en Cuba. ¡Este 
> podría ser el hosting! 

> Lo vería todo el mundo las universidades, los JCCE, Infomed, etc... podemos 
> pedir que esto tenga visibilidad completa 

> solo para Cuba, y digo solo para Cuba pues la gente va a poner libros que no 
> son Creative Commons porque hacen falta, y por lo tanto el acceso desde 
> Internet para no buscarnos problemas legales debe ser evitado.
> 
> Sunshine 1.0, sus pruebas actuales se están haciendo con Lemur(Toolkit de 
> NLP+IR junto a Indri, hecho en C++ cuyo wraper

>  para python se llama pymur) + Django, está orientado a ser un buscador en 
> textos, simulando a Google Book. Tenemos diseñadas ya las pantallas tipos 
> previendo una experiencia de usuario mejorada, y por supuesto funcionalidades 
> importantes como: agrupamiento y clasificación automáticas, questioning 
> answering system, detección y análisis de plagio, page rank,... aprovechando 
> django y las ventajas de python será bien modular para incluir lo que sea 
> necesario. Cesar podrías intentar acceder a esta URL y decirme si se ve algo 
> desde la red del MES: http://chost.grm.uci.cu/gitlab/sorice/sunshine
> Si esta URL se ve podrán descargar todos los códigos cuando lo subamos esta 
> semana, la URL ha sido creada el 13 de junio de 2013.
> Nuestro equipo actualmente tiene 6 personas.
> 
> En la UCI existe Orion que está basado en Mnogosearch, pero lo probamos acá y 
> aunque funciona bien, 

> este es un proyecto enorme y que es bastante difícil de configurar. Utiliza 
> todo su sistema sobre BD SQL 

> y nuestra experiencia fue terrible, varios break del sistema en diferentes 
> momentos. Es muy bueno e implementa 

> muchas cosas de este negocio. Yusniel Hidalgo su creador, está desvinculado 
> del mismo.
> 
> elasticsearch: (http://www.elasticsearch.org/overview/) tampoco lo conozco lo 
> incluiré en mi lista de prioridades al igual que Sphinx.
> 
> Balance las URLs que han hablado y otras que incluyo yo:
> 1- http://bives.mes.edu.cu (Editorial Universitaria que contiene artículos, 
> tesis, etc)[OFF LINE]
> 2- http://lupa.upr.edu.cu/ (Buscador de la Universidad de Pinar del Río)[OK, 
> excelente hasta el momento, seguiré 

> experimentando]
> 3- http://www.tabacom.co.cu/buscador (Tabacuba)[OFF LINE desde mi red]
> 4- http://arachne.uh.cu/ (Buscador de la UH)[OFF LINE]
> 5- http://topo.unica.cu/ (Buscador de la UNICA)[OFF LINE]
> 6- http://k2.uo.edu.cu (Buscador de la UO)[OK, busca rápido pero hice 
> búsquedas y me parece que ha indexado poco de lo existente]
> 7- http://delfos.uclv.edu.cu/ (Buscador de la UCLV)[OFF LINE] (Este servicio 
> ni siquiera aparece hosteado en la intranet.uclv.edu.cu en la página que 
> descargué en mayo de 2013(este año), esta intranet tampoco se ve desde mi 
> subrred en grm.uci.cu)
> 8- http://orion.prod.uci.cu/orion_dev.php/main (Proyecto de la facultad 3 de 
> la UCI, buscador basado en mnogosearch)

> [OK, visible desde la UCI, revisad en las otras universidades y me decís]
> 9- Fenix(no encontré la URL)
> 10- http://www.2x3.cu/ (Buscador para Cuba de la Oficina Nacional de 
> Informatización)[OFF LINE, supongo que el proyecto ha sido abandonado en los 
> nuevos tiempos]
> 11- http://sunshine.prod.uci.cu (Buscador de libros de la UCI)[OK, se 
> encuentra sin soporte y mantenimiento]
> 
> En http://www.reduniv.mes.edu.cu/ (La red de universidades) aparecen estos 
> recursos:
> - 
> http://ftp.mes.edu.cu/1-BIBLIOTECA%20DIGITAL%20RedUniv/BIBLIOTECA%20GENERAL/ 
> (Biblioteca Digital de Literatura 

> Técnica del MES)[OFF LINE]
> http://200.14.48.91/sphider/search.php (Buscador de la Red de 
> Universidades)[imposible de accesar desde mi red por ser 

> un IP, política UCI en el proxy. ¿Alguien lo ve desde la suya?]
> - Otros ya mencionados arriba aparecen en este sitio, que parece hecho, por 
> su diseño, en 1990.
> 
> Puedo invitar a Cesar Bretaña, Abel Bordón, Ariel García que al parecer 
> tienen conocimientos a asesorarlos en temáticas afines que hacen falta y 
> ponerlos en contacto con personas que pueden estar trabajando en esto.
> 
> Palabras finales sobre la arquitectura de un sistema como este desde la 
> visión del proyecto de desarrollo de software y como investigador: debe ser 
> fácil de mantener, por ello escogimos python para nuestro propósito, está 
> probado que el lenguaje es más fácil, para programar lo mismo se necesitan 
> menos líneas de código, por lo tanto se puede mantener mejor e incorporar 
> gente nueva al proyecto con menos esfuerzo. Se necesita que sea modular pues 
> los algoritmos libres existentes generalmente no son los mejores y los que se 
> han hecho en Cuba están bajo toneladas de papel, cualquier nuevo aporte debe 
> poder insertarse como un plugin. Tener bien separada la capa que realiza las 
> funciones de indexación, y esta a su vez también debe poderse insertar 
> plugins con algoritmos recientes de IR. Las tecnologías con java son 
> excelentes, sobre todo para el hardware del primer mundo. Lucene es excelente 
> y es lo más usado por el mundo entero que tiene $ y se despreocupa de ese 
> asunto, en Cuba hace falta otra cosa. Xapian es de juguete, lo dice la 
> experiencia. Terrier está hecho con Java, same history. El mundo ha 
> programado cosas genéricas para cada lenguaje, pero los diccionarios 
> generalmente más completos están para inglés. El wordnet de español que hizo 
> europa hace unos años no lo he probado, aunque ya lo tengo casi listo. Estos 
> recursos del idioma son importantes para programar funciones complejas como 
> "quizás quiso decir", y donde no sea solo fonológico como lo hace 
> mnogosearch. Babelnet un excelente proyecto como diccionario está también 
> realizado su API en java y la BD pesa 2Gb, es impracticable por el momento y 
> no he terminado de estudiarlo.
> 
> Espero les sirva de algo. Y manténganme al tanto.
> 
> Espero que cualquiera de ustedes pueda ser el miembro de la asociación a 
> cargo de este servicio, necesario para lograr el acceso al conocimiento, y 
> que sea libre de verdad después de esto.
> 
> Sunshine 1.0 se considera un "Repositorio Institucional Avanzado de Acceso 
> Abierto". Saludos a todos.
> 
> On Fri, 14 Jun 2013 14:33:50 -0400
> "Lic. Ariel Garcia Reyes" <informatic...@cfg.ausa.cu> wrote:
> 
> > El 12/06/2013 06:10 p. m., Delio Orozco GonzÃ¡lez escribiÃ³:
> > > Colegas:
> > > Comprendo los argumentos de Ernesto pero no los suscribo porque me 
> > > inmovilizan, prefiero los de Hugo porque me alientan.
> > > Con toda consideraciÃ³n,
> > > La muestra del buscador que le di a Delio en video es funcional, esta 
> > > echo 100% en python, necesita muchas mejoras y gente que quieran 
> > > colaborar en su desarollo!
> > El nombre que hemos usado para el buscador es insignificante, lo 
> > esencial es que haga su trabajo, en estos momentos estamos utilizando 
> > bases de datos en mysql con indexador Sphinx.
> > Estamos haciendo el proyecto en python, no contamos con una guia para la 
> > instalacion del mismo.
> > A modo de prueba hicimos una indexacion de los dominios .cu y en unos 
> > minutos logramos indexar 1381 url entre dominio y subdominio solamente.
> > Estamos haciendo pruebas con ElasticSearch para en dependencia de los 
> > resultados cambiar para esa plataforma
> > Les pongo algunas de las caracteristicas de cada indexador
> > 
> > Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
> > --------------------------------------------------
> > Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html)
> > 
> > -alta indexaciÃ³n y bÃºsqueda desempeÃ±o;
> > -indexaciÃ³n avanzado y herramientas de consulta (texto flexible y rico 
> > en funciones tokenizer, lenguaje de consulta, varios modos de 
> > clasificaciÃ³n diferentes, etc);
> > -resultado avanzada ajustado post-procesamiento (SELECT con expresiones, 
> > WHERE, ORDER BY, GROUP BY, etc sobre los resultados de bÃºsqueda de texto);
> > -probada escalabilidad de hasta miles de millones de documentos, 
> > terabytes de datos y miles de consultas por segundo;
> > -fÃ¡cil integraciÃ³n con fuentes de datos SQL y XML, y SphinxAPI, SphinxQL 
> > o interfaces de bÃºsqueda SphinxSE;
> > -fÃ¡cil de escala con las bÃºsquedas distribuidas.
> > 
> > Ademas Sphinx...:
> > -tiene alta velocidad de indexaciÃ³n (hasta 10-15 MB / seg por nÃºcleo en 
> > un punto de referencia interno);
> > -tiene alta velocidad de bÃºsqueda (hasta 150-250 consultas / segundo por 
> > nÃºcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto de 
> > referencia interno);
> > -tiene una alta escalabilidad (mayores Ãndices de racimo conocidas mÃ¡s 
> > de 3 mil millones documentos, y una mayor actividad picos de mÃ¡s de 
> > 50.000.000 de consultas / dÃa);
> > -ofrece un buen nivel de relevancia a travÃ©s de la combinaciÃ³n de la 
> > clasificaciÃ³n proximidad frase y (BM25) clasificaciÃ³n estadÃstica;
> > -proporciona capacidades de bÃºsqueda distribuidos;
> > -proporciona extractos de documentos (snippets) de generaciÃ³n;
> > -La opciÃ³n de bÃºsqueda desde la aplicaciÃ³n con SphinxAPI o interfaces de 
> > SphinxQL, y desde dentro de MySQL con motor de almacenamiento 
> > conectables SphinxSE;
> > -soportes booleano, frase, palabra proximidad y otros tipos de consultas;
> > -soporta mÃºltiples campos de texto completo por documento (hasta 32 por 
> > defecto);
> > -compatible con varios atributos adicionales por documento (grupos ie., 
> > marcas de tiempo, etc);
> > -apoya palabras vacÃas;
> > -apoya morfolÃ³gicas palabra formas diccionarios;
> > -apoya tokenizar excepciones;
> > -apoya ambas codificaciones de un solo byte y UTF-8;
> > -apoya derivados (stemmers de InglÃ©s, ruso, checo y el Ã¡rabe son 
> > incorporados y lematizadores para el francÃ©s, espaÃ±ol, portuguÃ©s, 
> > italiano, rumano, alemÃ¡n, holandÃ©s, sueco, noruego, danÃ©s, finlandÃ©s, 
> > hÃºngaro, estÃ¡n disponibles mediante la construcciÃ³n de un tercero 
> > libstemmer biblioteca );
> > -soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB, 
> > NDB, Archive, etc son compatibles);
> > -PostgreSQL soporta de forma nativa;
> > -soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) de 
> > forma nativa;
> > -... Tiene 50 + otras caracterÃsticas que no aparecen aquÃ, se refieren 
> > a API y manual de configuraciÃ³n!
> > 
> > 
> > Algunas Caracteristicas de los Indexadores (Traduccion Literal de google)
> > --------------------------------------------------
> > elasticsearch: (http://www.elasticsearch.org/overview/)
> > 
> > -datos en tiempo real: Los flujos de datos en su sistema todo el tiempo. 
> > La pregunta es ... la rapidez con que los datos pueden llegar a ser una 
> > idea? Con Elasticsearch, en tiempo real, es la Ãºnica vez.
> > -repartido: Elasticsearch le permite empezar poco a poco, pero va a 
> > crecer con su negocio. EstÃ¡ construido para escalar horizontalmente 
> > fuera de la caja. Como usted necesita mÃ¡s capacidad, sÃ³lo tiene que 
> > aÃ±adir mÃ¡s nodos, y dejar que el grupo reorganizarse para aprovechar el 
> > hardware adicional.
> > -multi-tenancy: Un clÃºster puede alojar varios Ãndices que se pueden 
> > consultar de manera independiente o en grupo. Alias ââÃndice permiten 
> > agregar Ãndices sobre la marcha, mientras que es transparente a la 
> > aplicaciÃ³n.
> > -documento de orientaciÃ³n: Guarde entidades del mundo real complejos 
> > Elasticsearch como documentos JSON estructurados. Todos los campos son 
> > indexados por defecto, y todos los Ãndices se pueden usar en una sola 
> > consulta, para devolver resultados en impresionante velocidad.
> > -esquema de conexiÃ³n: Elasticsearch permite que usted pueda comenzar 
> > fÃ¡cilmente. Mezcle un documento JSON y tratarÃ¡ de detectar la estructura 
> > de datos, los datos de Ãndice y hacer que buscar. DespuÃ©s, aplicar su 
> > conocimiento especÃfico del dominio de sus datos para personalizar la 
> > forma en que se indexa sus datos.
> > -por la operaciÃ³n de persistencia: Elasticsearch pone primero su 
> > seguridad de datos. Documentar los cambios se registran en los registros 
> > de transacciones en varios nodos del clÃºster para minimizar la 
> > posibilidad de pÃ©rdida de datos.
> > -construir sobre la parte superior de apache lucene: Apache Lucene es 
> > una biblioteca de alto rendimiento con todas las funciones de 
> > recuperaciÃ³n de informaciÃ³n, escrita en Java. Elasticsearch utiliza 
> > Lucene internamente para construir el estado de la tÃ©cnica de bÃºsqueda 
> > distribuida y capacidades de anÃ¡lisis.
> > -herramientas de anÃ¡lisis de reales: La bÃºsqueda no es sÃ³lo la bÃºsqueda 
> > de texto libre mÃ¡s - se trata de explorar sus datos. Entenderlo. Obtener 
> > ideas que harÃ¡n que su negocio mejor o mejorar su producto.
> > -alta disponibilidad: Grupos elasticsearch son resistentes - que detecta 
> > y elimina los nodos fallidos, y reorganizarse para asegurar que sus 
> > datos estÃ¡n seguros y accesibles.
> > -bÃºsqueda de texto completo: Elasticsearch utiliza Lucene bajo las 
> > sÃ¡banas para proporcionar las mÃ¡s poderosas capacidades de bÃºsqueda de 
> > texto completo disponibles en cualquier producto de cÃ³digo abierto. 
> > BÃºsqueda viene con soporte multi-idioma, un lenguaje de consulta de gran 
> > alcance, el apoyo para la geolocalizaciÃ³n, el contexto conscientes 
> > sugerencias hizo-que-medias, autocompletado y bÃºsqueda de fragmentos.
> > -gestiÃ³n de conflictos: Control de versiones optimista puede ser 
> > utilizado cuando sea necesario para asegurar que los datos nunca se 
> > pierde debido a cambios conflictivos de varios procesos
> > -api rest: Elasticsearch es impulsado API. Casi cualquier acciÃ³n puede 
> > ser peformed utilizando una API simple RESTful usando JSON a travÃ©s de 
> > HTTP. Una API ya existe en el idioma de su elecciÃ³n.
> > -apache 2 licencia de fuente abierta: Elasticsearch se puede descargar, 
> > utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2 
> > licenese, una de las licencias de cÃ³digo abierto mÃ¡s flexibles 
> > disponibles.
> > 
> > PD: Los interesados en ayudar, en este o cualquier otro proyecto estamos 
> > interesados en colaborar.
> > 
> > 
> > -- 
> > Este mensaje ha sido analizado por MailScanner
> > en busca de virus y otros contenidos peligrosos,
> > y se considera que está limpio.
> > 
> 
> 
> -- 
> “Me volví reaccionario, fiel a mis antiguos principios. Prefiero correr el 
> riesgo de equivocarme con los pobres que tener la pretensión de acertar sin 
> ellos”
> Frei Betto
> 
> Atte. Ing. Abel Meneses Abad
> Director CDES (Centro Desarrollo de Software)
> Facultad de Ciencias Informáticas Universidad de Granma
> http://www.udg.co.cu/
> 
> ______________________________________________________________________
> Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
> Gutl-l@jovenclub.cu
> https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

-- 
M.Sc. Alberto García Fumero
Usuario Linux 97 138, registrado 10/12/1998
Las autoridades sanitarias advierten:
El uso prolongado de Windows puede provocar dependencia.


-- 
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que est� limpio.

______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Re: [Gutl-l] Buscador de la red nacional

Responder a