Aleluya. Aunque todo me sabe a chino, son magníficas noticias. ;-)
El Dr. Torricella es una magnífica persona; estoy seguro de que hará todo lo posible y qu esté en su mano. Que por cierto, en mi opinión es el mejor especialista en sistemas de catalogación para bibliotecas y el uso de bases de datos bibliográficos basadas en Isis. Salúdenlo de mi parte, que le he perdido la pista. He probado con todos los buscadores que has reseñado, y excepto el de TABACOM (que lo uso por razones obvias) y el de Reduniv (bastante rápido) no se accede a ninguno. El buscador en humanos.uci.cu se atasca y eterniza. No sé si es porque solo tengo navegación nacional. De todas formas, por alguna oscura causa se tiende a restringir el acceso desde fuera del propio nodo. Fumero El lun, 17-06-2013 a las 01:45 -0400, Abel Meneses Abad escribió: > Quiero empezar diciendo que estoy haciendo mi doctorado en minería de texto, > específicamente en detección de plagio parafrástico. > Soy el primer productor que tuvo el proyecto Sunshine, y lo apoyé cuando Eddy > era aún estudiante y lo promoví: usa XAPIAN y Django. Hoy está abandonado. > Existe la URL para la UCI unicamente: http://sunshine.prod.uci.cu > > Hace meses investigo un API, que funcione para bajos rendimientos. Desconocía > a Sphinx, que por lo visto tiene el mismo nombre que el generador de > documentación en el que se implementan muchos textos de python. Estoy leyendo > sobre él ahora mismo en Internet. > > Tenemos un nuevo proyecto aprobado por el consejo científico de nuestra > universidad para hacer un proyecto similar que permita probar varias tesis de > doctorado. Mantengo relación con los grupos de minería de texto de la UCLV, > Universidad de Holguín y de la CUJAE. No logro encontrar a nadie de Santiago > de Cuba que me dijeron están dispersos desde que murió Aurora. ¿Alguien tiene > un contacto relevante? Este proyecto se desplegará también en la Universidad > de Camagüey como resultado de mi doctorado, pues mi tutor es de esta > universidad, el Dr Julio Madera que organizó el FLISOL en Camagüey. > > Casualmente y sin haber leído esta lista de correo, he escrito el viernes a > quien creo puede darnos el hosting. > ¡El MES! El Dr.Torricella quien se dedica a la gestión bibliográfica en el > ministerio, y a quien vi en la UCI en > una conferencia fue el destinatario de mi correo ayer. En realidad queremos > proponer el proyecto de Sunshine > para sustituir lo que haya por ahí, siempre y cuando demuestre ser mejor. > ¿Por qué? pues es más fácil saber > lo que se hace en el mundo sobre ciencia, que lo que se hace en Cuba. ¡Este > podría ser el hosting! > Lo vería todo el mundo las universidades, los JCCE, Infomed, etc... podemos > pedir que esto tenga visibilidad completa > solo para Cuba, y digo solo para Cuba pues la gente va a poner libros que no > son Creative Commons porque hacen falta, y por lo tanto el acceso desde > Internet para no buscarnos problemas legales debe ser evitado. > > Sunshine 1.0, sus pruebas actuales se están haciendo con Lemur(Toolkit de > NLP+IR junto a Indri, hecho en C++ cuyo wraper > para python se llama pymur) + Django, está orientado a ser un buscador en > textos, simulando a Google Book. Tenemos diseñadas ya las pantallas tipos > previendo una experiencia de usuario mejorada, y por supuesto funcionalidades > importantes como: agrupamiento y clasificación automáticas, questioning > answering system, detección y análisis de plagio, page rank,... aprovechando > django y las ventajas de python será bien modular para incluir lo que sea > necesario. Cesar podrías intentar acceder a esta URL y decirme si se ve algo > desde la red del MES: http://chost.grm.uci.cu/gitlab/sorice/sunshine > Si esta URL se ve podrán descargar todos los códigos cuando lo subamos esta > semana, la URL ha sido creada el 13 de junio de 2013. > Nuestro equipo actualmente tiene 6 personas. > > En la UCI existe Orion que está basado en Mnogosearch, pero lo probamos acá y > aunque funciona bien, > este es un proyecto enorme y que es bastante difícil de configurar. Utiliza > todo su sistema sobre BD SQL > y nuestra experiencia fue terrible, varios break del sistema en diferentes > momentos. Es muy bueno e implementa > muchas cosas de este negocio. Yusniel Hidalgo su creador, está desvinculado > del mismo. > > elasticsearch: (http://www.elasticsearch.org/overview/) tampoco lo conozco lo > incluiré en mi lista de prioridades al igual que Sphinx. > > Balance las URLs que han hablado y otras que incluyo yo: > 1- http://bives.mes.edu.cu (Editorial Universitaria que contiene artículos, > tesis, etc)[OFF LINE] > 2- http://lupa.upr.edu.cu/ (Buscador de la Universidad de Pinar del Río)[OK, > excelente hasta el momento, seguiré > experimentando] > 3- http://www.tabacom.co.cu/buscador (Tabacuba)[OFF LINE desde mi red] > 4- http://arachne.uh.cu/ (Buscador de la UH)[OFF LINE] > 5- http://topo.unica.cu/ (Buscador de la UNICA)[OFF LINE] > 6- http://k2.uo.edu.cu (Buscador de la UO)[OK, busca rápido pero hice > búsquedas y me parece que ha indexado poco de lo existente] > 7- http://delfos.uclv.edu.cu/ (Buscador de la UCLV)[OFF LINE] (Este servicio > ni siquiera aparece hosteado en la intranet.uclv.edu.cu en la página que > descargué en mayo de 2013(este año), esta intranet tampoco se ve desde mi > subrred en grm.uci.cu) > 8- http://orion.prod.uci.cu/orion_dev.php/main (Proyecto de la facultad 3 de > la UCI, buscador basado en mnogosearch) > [OK, visible desde la UCI, revisad en las otras universidades y me decís] > 9- Fenix(no encontré la URL) > 10- http://www.2x3.cu/ (Buscador para Cuba de la Oficina Nacional de > Informatización)[OFF LINE, supongo que el proyecto ha sido abandonado en los > nuevos tiempos] > 11- http://sunshine.prod.uci.cu (Buscador de libros de la UCI)[OK, se > encuentra sin soporte y mantenimiento] > > En http://www.reduniv.mes.edu.cu/ (La red de universidades) aparecen estos > recursos: > - > http://ftp.mes.edu.cu/1-BIBLIOTECA%20DIGITAL%20RedUniv/BIBLIOTECA%20GENERAL/ > (Biblioteca Digital de Literatura > Técnica del MES)[OFF LINE] > http://200.14.48.91/sphider/search.php (Buscador de la Red de > Universidades)[imposible de accesar desde mi red por ser > un IP, política UCI en el proxy. ¿Alguien lo ve desde la suya?] > - Otros ya mencionados arriba aparecen en este sitio, que parece hecho, por > su diseño, en 1990. > > Puedo invitar a Cesar Bretaña, Abel Bordón, Ariel García que al parecer > tienen conocimientos a asesorarlos en temáticas afines que hacen falta y > ponerlos en contacto con personas que pueden estar trabajando en esto. > > Palabras finales sobre la arquitectura de un sistema como este desde la > visión del proyecto de desarrollo de software y como investigador: debe ser > fácil de mantener, por ello escogimos python para nuestro propósito, está > probado que el lenguaje es más fácil, para programar lo mismo se necesitan > menos líneas de código, por lo tanto se puede mantener mejor e incorporar > gente nueva al proyecto con menos esfuerzo. Se necesita que sea modular pues > los algoritmos libres existentes generalmente no son los mejores y los que se > han hecho en Cuba están bajo toneladas de papel, cualquier nuevo aporte debe > poder insertarse como un plugin. Tener bien separada la capa que realiza las > funciones de indexación, y esta a su vez también debe poderse insertar > plugins con algoritmos recientes de IR. Las tecnologías con java son > excelentes, sobre todo para el hardware del primer mundo. Lucene es excelente > y es lo más usado por el mundo entero que tiene $ y se despreocupa de ese > asunto, en Cuba hace falta otra cosa. Xapian es de juguete, lo dice la > experiencia. Terrier está hecho con Java, same history. El mundo ha > programado cosas genéricas para cada lenguaje, pero los diccionarios > generalmente más completos están para inglés. El wordnet de español que hizo > europa hace unos años no lo he probado, aunque ya lo tengo casi listo. Estos > recursos del idioma son importantes para programar funciones complejas como > "quizás quiso decir", y donde no sea solo fonológico como lo hace > mnogosearch. Babelnet un excelente proyecto como diccionario está también > realizado su API en java y la BD pesa 2Gb, es impracticable por el momento y > no he terminado de estudiarlo. > > Espero les sirva de algo. Y manténganme al tanto. > > Espero que cualquiera de ustedes pueda ser el miembro de la asociación a > cargo de este servicio, necesario para lograr el acceso al conocimiento, y > que sea libre de verdad después de esto. > > Sunshine 1.0 se considera un "Repositorio Institucional Avanzado de Acceso > Abierto". Saludos a todos. > > On Fri, 14 Jun 2013 14:33:50 -0400 > "Lic. Ariel Garcia Reyes" <informatic...@cfg.ausa.cu> wrote: > > > El 12/06/2013 06:10 p. m., Delio Orozco González escribió: > > > Colegas: > > > Comprendo los argumentos de Ernesto pero no los suscribo porque me > > > inmovilizan, prefiero los de Hugo porque me alientan. > > > Con toda consideración, > > > La muestra del buscador que le di a Delio en video es funcional, esta > > > echo 100% en python, necesita muchas mejoras y gente que quieran > > > colaborar en su desarollo! > > El nombre que hemos usado para el buscador es insignificante, lo > > esencial es que haga su trabajo, en estos momentos estamos utilizando > > bases de datos en mysql con indexador Sphinx. > > Estamos haciendo el proyecto en python, no contamos con una guia para la > > instalacion del mismo. > > A modo de prueba hicimos una indexacion de los dominios .cu y en unos > > minutos logramos indexar 1381 url entre dominio y subdominio solamente. > > Estamos haciendo pruebas con ElasticSearch para en dependencia de los > > resultados cambiar para esa plataforma > > Les pongo algunas de las caracteristicas de cada indexador > > > > Algunas Caracteristicas de los Indexadores (Traduccion Literal de google) > > -------------------------------------------------- > > Sphinx: (http://sphinxsearch.com/docs/2.1.1/features.html) > > > > -alta indexación y búsqueda desempeño; > > -indexación avanzado y herramientas de consulta (texto flexible y rico > > en funciones tokenizer, lenguaje de consulta, varios modos de > > clasificación diferentes, etc); > > -resultado avanzada ajustado post-procesamiento (SELECT con expresiones, > > WHERE, ORDER BY, GROUP BY, etc sobre los resultados de búsqueda de texto); > > -probada escalabilidad de hasta miles de millones de documentos, > > terabytes de datos y miles de consultas por segundo; > > -fácil integración con fuentes de datos SQL y XML, y SphinxAPI, SphinxQL > > o interfaces de búsqueda SphinxSE; > > -fácil de escala con las búsquedas distribuidas. > > > > Ademas Sphinx...: > > -tiene alta velocidad de indexación (hasta 10-15 MB / seg por núcleo en > > un punto de referencia interno); > > -tiene alta velocidad de búsqueda (hasta 150-250 consultas / segundo por > > núcleo contra 1.000.000 documentos, 1,2 GB de datos en un punto de > > referencia interno); > > -tiene una alta escalabilidad (mayores Ãndices de racimo conocidas más > > de 3 mil millones documentos, y una mayor actividad picos de más de > > 50.000.000 de consultas / dÃa); > > -ofrece un buen nivel de relevancia a través de la combinación de la > > clasificación proximidad frase y (BM25) clasificación estadÃstica; > > -proporciona capacidades de búsqueda distribuidos; > > -proporciona extractos de documentos (snippets) de generación; > > -La opción de búsqueda desde la aplicación con SphinxAPI o interfaces de > > SphinxQL, y desde dentro de MySQL con motor de almacenamiento > > conectables SphinxSE; > > -soportes booleano, frase, palabra proximidad y otros tipos de consultas; > > -soporta múltiples campos de texto completo por documento (hasta 32 por > > defecto); > > -compatible con varios atributos adicionales por documento (grupos ie., > > marcas de tiempo, etc); > > -apoya palabras vacÃas; > > -apoya morfológicas palabra formas diccionarios; > > -apoya tokenizar excepciones; > > -apoya ambas codificaciones de un solo byte y UTF-8; > > -apoya derivados (stemmers de Inglés, ruso, checo y el árabe son > > incorporados y lematizadores para el francés, español, portugués, > > italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés, > > húngaro, están disponibles mediante la construcción de un tercero > > libstemmer biblioteca ); > > -soportes MySQL nativa (todos los tipos de tablas, como MyISAM, InnoDB, > > NDB, Archive, etc son compatibles); > > -PostgreSQL soporta de forma nativa; > > -soporta bases de datos compatibles con ODBC (MS SQL, Oracle, etc) de > > forma nativa; > > -... Tiene 50 + otras caracterÃsticas que no aparecen aquÃ, se refieren > > a API y manual de configuración! > > > > > > Algunas Caracteristicas de los Indexadores (Traduccion Literal de google) > > -------------------------------------------------- > > elasticsearch: (http://www.elasticsearch.org/overview/) > > > > -datos en tiempo real: Los flujos de datos en su sistema todo el tiempo. > > La pregunta es ... la rapidez con que los datos pueden llegar a ser una > > idea? Con Elasticsearch, en tiempo real, es la única vez. > > -repartido: Elasticsearch le permite empezar poco a poco, pero va a > > crecer con su negocio. Está construido para escalar horizontalmente > > fuera de la caja. Como usted necesita más capacidad, sólo tiene que > > añadir más nodos, y dejar que el grupo reorganizarse para aprovechar el > > hardware adicional. > > -multi-tenancy: Un clúster puede alojar varios Ãndices que se pueden > > consultar de manera independiente o en grupo. Alias ââÃndice permiten > > agregar Ãndices sobre la marcha, mientras que es transparente a la > > aplicación. > > -documento de orientación: Guarde entidades del mundo real complejos > > Elasticsearch como documentos JSON estructurados. Todos los campos son > > indexados por defecto, y todos los Ãndices se pueden usar en una sola > > consulta, para devolver resultados en impresionante velocidad. > > -esquema de conexión: Elasticsearch permite que usted pueda comenzar > > fácilmente. Mezcle un documento JSON y tratará de detectar la estructura > > de datos, los datos de Ãndice y hacer que buscar. Después, aplicar su > > conocimiento especÃfico del dominio de sus datos para personalizar la > > forma en que se indexa sus datos. > > -por la operación de persistencia: Elasticsearch pone primero su > > seguridad de datos. Documentar los cambios se registran en los registros > > de transacciones en varios nodos del clúster para minimizar la > > posibilidad de pérdida de datos. > > -construir sobre la parte superior de apache lucene: Apache Lucene es > > una biblioteca de alto rendimiento con todas las funciones de > > recuperación de información, escrita en Java. Elasticsearch utiliza > > Lucene internamente para construir el estado de la técnica de búsqueda > > distribuida y capacidades de análisis. > > -herramientas de análisis de reales: La búsqueda no es sólo la búsqueda > > de texto libre más - se trata de explorar sus datos. Entenderlo. Obtener > > ideas que harán que su negocio mejor o mejorar su producto. > > -alta disponibilidad: Grupos elasticsearch son resistentes - que detecta > > y elimina los nodos fallidos, y reorganizarse para asegurar que sus > > datos están seguros y accesibles. > > -búsqueda de texto completo: Elasticsearch utiliza Lucene bajo las > > sábanas para proporcionar las más poderosas capacidades de búsqueda de > > texto completo disponibles en cualquier producto de código abierto. > > Búsqueda viene con soporte multi-idioma, un lenguaje de consulta de gran > > alcance, el apoyo para la geolocalización, el contexto conscientes > > sugerencias hizo-que-medias, autocompletado y búsqueda de fragmentos. > > -gestión de conflictos: Control de versiones optimista puede ser > > utilizado cuando sea necesario para asegurar que los datos nunca se > > pierde debido a cambios conflictivos de varios procesos > > -api rest: Elasticsearch es impulsado API. Casi cualquier acción puede > > ser peformed utilizando una API simple RESTful usando JSON a través de > > HTTP. Una API ya existe en el idioma de su elección. > > -apache 2 licencia de fuente abierta: Elasticsearch se puede descargar, > > utilizar y modificar de forma gratuita. Es liviano bajo la Apache 2 > > licenese, una de las licencias de código abierto más flexibles > > disponibles. > > > > PD: Los interesados en ayudar, en este o cualquier otro proyecto estamos > > interesados en colaborar. > > > > > > -- > > Este mensaje ha sido analizado por MailScanner > > en busca de virus y otros contenidos peligrosos, > > y se considera que está limpio. > > > > > -- > “Me volví reaccionario, fiel a mis antiguos principios. Prefiero correr el > riesgo de equivocarme con los pobres que tener la pretensión de acertar sin > ellos” > Frei Betto > > Atte. Ing. Abel Meneses Abad > Director CDES (Centro Desarrollo de Software) > Facultad de Ciencias Informáticas Universidad de Granma > http://www.udg.co.cu/ > > ______________________________________________________________________ > Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba. > Gutl-l@jovenclub.cu > https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l -- M.Sc. Alberto García Fumero Usuario Linux 97 138, registrado 10/12/1998 Las autoridades sanitarias advierten: El uso prolongado de Windows puede provocar dependencia. -- Este mensaje ha sido analizado por MailScanner en busca de virus y otros contenidos peligrosos, y se considera que est� limpio.
______________________________________________________________________ Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba. Gutl-l@jovenclub.cu https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l