« Noticias de buscadores, un análisis profundo de las herramientas de Google y la validación SERP | Yahoo está mostrando anuncios con criterio de geo localización en anuncios de búsqueda »
12 May, 2008 a las 12:01 por Danny Sullivan
Powerset lanza un “buscador que entiende” para la Wikipedia
Después de casi dos años en producción (y bastante euforia), Powerset finalmente ha lanzado un buscador de lenguaje natural. No matará a Google y a duras penas tiene modelo de negocio. Pero por lo menos es algo con lo que el mundo puede jugar y bajo la capa, hay mucho potencial.
En el momento que estáis leyendo esto, el sitio de Powerset tiene que haber cambiado a una herramienta que permite buscar material dentro de la Wikipedia. ¿Por qué molestarse en usar Powerset cuando se puede usar el propio buscador de la Wikipedia o incluso el comando de Google para buscar solamente en las páginas de la Wikipedia? El argumento de venta de Powerset es que obtendrás mejores resultados porque la tecnología de Powerset ha leído y entendido el significado de cada palabra dentro de la Wikipedia.
Un buscador que entiende y no un buscador de lenguaje natural
Para entenderlo mejor, ruego que olvides haber escuchado “lenguaje natural” en asociación con Powerset. Eso no es realmente una descripción de lo que hacen en comparación con los buscadores normales.
Para explicarlo, hay que entender que Google y el resto de los buscadores son en mayor medida, estúpidos. Realmente no entienden el contenido en las páginas que “leen”. Si ven la palabra “camina” en una frase, no saben si está siendo utilizada como verbo o sustantivo. En términos generales, ni siquiera saben que esas palabras son palabras. Las palabra son más o menos patrones para ellos (colecciones de patrones) y cuando alguien busca, intentan encontrar páginas que tienen esos patrones en ellos o enlaces hacia esas páginas.
Eso es la versión MUY simplificada, ¿OK?. Los principales buscadores SI tienen alguna inteligencia, algunas habilidades para saber si “camino” hace referencia a “caminar” o si “caminar” y “correr” son parecidos. Pero eso en gran medida se hace a través de estimación estadística, más que comprender que significa cada palabra individualmente, especialmente en términos de uso exacto de la gramática.
Powerset es diferente. Dice que su tecnología lee y comprende cada palabra de una página. Mira cada oración. Entiende las palabras en cada oración y como están relacionadas unas con otras. Determina lo que realmente significa la oración, todos los hechos que se presentan. Eso significa que sabe de que va realmente cada página.
En falta de una mejor frase, puedes llamarlo un “buscador que entiende”. Quizá no sea la frase más correcta, pero lenguaje natural no lo es tampoco. Un buscador que entiende al menos resalta lo más especial de Powerset, porque realmente entiende de que va una página, puede extraer hechos de esas páginas y además comprender como esos hechos (al igual que esas páginas) se relacionan con otros.
Herramienta para descubrir la Wikipedia
Uno de los principales usos de Powerset es aplicarlo como una herramienta para descubrir la Wikipedia y para refinar búsquedas. Para utilizar el ejemplo de Powerset que me dieron durante la demostración la semana pasada, consideremos la búsqueda por [Henry VIII / Enrique VIII]. ¿En qué se interesa una persona que busca por él, sabiendo que Enrique hizo muchísimas cosas durante su reinado?
En Google, obtenemos sugerencias para refinar nuestra búsqueda, al final de la página, como esto:
En Yahoo
En Microsoft
La mayoría son generadas al ver la relación entre aquellos que han buscado un tema y que luego pueden haber ido por otra búsqueda. Yahoo tiene la opción más sofisticada (ver Search Sugestions on Stereoids: Yahoo Search Assist), pero en realidad aún no ha “leído” sobre Enrique VIII y agrupado en sub-grupos como hubiese hecho un humano.
Eso es lo que intenta Powerset. Esto es lo que obtienes al buscar por Enrique VIII:
Notar que las pestañas de arriba, cuando reconoce que Enrique VIII se podría referir a una persona, una ópera, una obra o quizá hasta un drama de televisión. Bueno, no es tan espectacular cuando lo piensas. Pero miremos más allá en el área de “Factz”. Allí puedes ver que Powerset, después de leer toda la Wikipedia, ha entendido que Enrique VIII “disolvió” cosas como monasterios o que “entregó” cosas como tierras. Ah sí, ha “casado” algunas personas.
También hay otros hechos que podemos encontrar, como:
Eso es un buen refinamiento. Recorriendo el listado hacia abajo, se puede ojear todos los hechos que definen la vida de Enrique VIII. Y de esa lista, con un clic, se puede bucear en otros temas y saltar a una página en particular de la Wikipedia.
¿Veis como hay un enlace a la página de Flamouth, Corwall? Powerset ha visto que que en esa página se menciona algo que Enrique VII ha construido, el castillo de Pendennis. Eso no esta cubierto en la página principal de Enrique VIII, pero porque Powerset ha leído ambas páginas y entendido de que van, por lo que puede enlazar ambos hechos.
¿Muerte por exceso?
Resumiendo, el refinamiento es genial. ¿A quién no le gusta? De primeras, puede ser excesivo. Durante la demostración, Powerset dio importancia a como puede construir información de diferentes páginas de la Wikipedia que no están escrita en ninguna de ellas. Por ejemplo, una búsqueda por [hulk hogan] nos da esto:
¿Veis como se individualiza a los que ha vencido Hulk Hogan? Es bonito, pero realmente podemos confiar en que se ha capturado todas las victorias? Yo no. Probablemente seguiría buscando por una lista con más autoridad que haya sido revisada por un humano. Es más, puedo obtener una lista sin ningún gran refinamiento. Una búsqueda por victorias de Hulk Hogan en Google me da esta página en About.com que lista todas sus victorias por el título mundial.
Además, mientras que Powerset hizo un buen trabajo analizando a Enrique VIII según la Wikipedia, los editores humanos de la Wikipedia hacen un buen trabajo directamente en párrafo de apertura de la página de Enrique VIII.
Sospecho que la mayoría de los usuarios de la Wikipedia encontrarán un párrafo de apertura como ese que hace un buen trabajo guiando y refinando los temas sobre Enrique VIII y enlazando con los hechos.
Enrique VIII (28 de junio de 1491 – 28 de enero de 1547) fue rey de Inglaterra y señor de Irlanda desde el 22 de abril de 1509 hasta su muerte. Fue el segundo monarca de la casa Tudor, sucediendo a su padre, Enrique VII. Famoso por haberse casado seis veces y por ejercer el poder más absoluto entre todos los monarcas ingleses. Entre los hechos más notables de su reinado se incluye su ruptura con la Iglesia Católica Romana, y su establecimiento como cabeza de la Iglesia de Inglaterra (Iglesia Anglicana), la disolución de los monasterios, y la unión de Inglaterra con Gales.
También promulgó legislaciones importantes, como las varias actas de separación con la Iglesia de Roma,[1] de su designación como cabeza suprema de la Iglesia de Inglaterra, las Union Acts de 1535 y 1542, que unificaron a Inglaterra y Gales como una sola nación, la Buggery Act de 1533, primera legislación contra la sodomía en Inglaterra, la Witchcraft Act de 1542, que castigaba con la muerte la brujería.[2]
La protección que dispensó al pintor alemán Hans Holbein se tradujo en una formidable serie de retratos y dibujos a color, que efigian a muchos personajes de la Corte de aquella época. Destaca la efigie del propio Enrique VIII, del Museo Thyssen-Bornemisza.
Ese es un problema para Poweset, que dice que espera atraer a muchos de los usuarios de la Wikipedia a su propio sitio, donde eventualmente mostrarán publicidad junto al contenido (los anuncios no están presentes en este lanzamiento).
Powerset ha explicado cuán popular es la Wikipedia y en el buen recurso que se ha convertido. De acerdo, y que mucha gente termina en ella gracias a una búsqueda en Google. Cerca del 70% de los usuarios de la Wikipedia vienen por buscadores, según Powerset. Esa es una audiencia enorme que NO irá mágicamente a Powerset. Si, algunos van directamente a la Wikipedia. No cabe duda que algunos de esos usuarios oirán algo sobre la nueva herramienta de Powerset e irán a ella. Sin embargo, sería un logro increíble si son más de una fracción de los que van directamente a la Wikipedia.
Esquema del artículo
Powerset tiene un truco bajo sus mangas que podría arrastrar a mucha gente. En cualquier página qur visitas, hay una caja llamada “Article Outline” (esquema del artículo) que aparece, como esta:
Está muy logrado. Selecciona un concepto y te llevará directamente a la sección del documento relacionada:

Creo que es evidente que Powerset agrega valor a la Wikipedia. De hecho, cualquiera sería inteligente en ir directamente Powerset, en lugar de a la Wikipedia. Pero como he dicho arriba, no creo que eso pasará.
¿El futuro es Site Search?
Si Powerset falla en capturar una gran audiencia, ¿cuál es el camino a seguir? Una posibilidad sería aportar mejores búsquedas para sitios específicos. La tecnología de Powerset puede aplicarse a cualquier documento, para facilitarle a la gente a encontrar lo que están buscando dentro de éste. La búsqueda específica en un sitio permite visitar una web en particular para buscar solamente en ese sitio. Ese mercado, junto a la búsqueda empresarial (lograr que se pueda buscar en intranets) crece continúamente. Y la audiencia de ese tipo tiene mayor tendencia hacia la búsqueda con refinamiento o búsqueda con herramientas exploratorias, que aquellos haciendo búsquedas más generales.
Powerset dijo que es un mercado en el cual están interesados, por lo que quizá veamos un crecimiento en ese área. Pero para aquellos que esperan que produzca la fortuna de Google, recordemos que FAST, una empresa de búsquedas empresariales madura y con años en el mercado, se vendió por 1200 millones de dólares este año. Sí, eso es muchísimo dinero, pero no son los multi-miles de millones que Yahoo quería y mucho menos lo que vale Google.
Hablando de Yahoo, era el que candidato líder en el pasado entre los que podría comprar Powerset, especialmente por algunos nexos entre las dos compañias (Powerset tiene varios ex-empleados de Yahoo en su equipo). Dados los problemas actuales de Yahoo y su estado inestable, yo no esperaría mucho.
¿Podría haber una fusión con un jugador como Google o Microsoft? Seguro. Aparte de la búsqueda dentro de un sitio, la tecnología permite a las máquinas comprender automáticamente el contenido de un documento de texto, lo cual podría tener otra aplicación y por lo tanto tener algún valor . Cuales podrían ser y que valor tendrían, no está claro. Powerset ha sido inteligente al registrar licencias y patentes de tecnología que podría ser atractivo para jugadores como Google o Microsoft. Dentro de estas organizaciones, sospecho que saldrán cosas más innovadoras.
Para vuestra información, escribí el párrafo de arriba el último viernes, antes de que corrieron los rumores (ver aquí en News.com y aquí en Techmeme) de que Microsoft podría querer comprarla. En realidad, comencé a escribir este artículo varios meses atrás, enfocándolo en como podría ser un objetivo de compra. Es más que obvio ver que alguno de los grandes le eche un vistazo, y cuando hablé con Powerset hace algunos meses, me dió la impresión que todos los grandes ya lo habían visto.
Desde entonces, por supuesto, nadie los ha comprado, y además la empresa sufrió un cambio de dirección el año pasado. Ya estaba bajo fuego por no lograr sacar el producto durante tanto tiempo. Agreguemos a esos ataques de potencial aniquilador de Google, que Powerset necesita cerca de un mes para comprender las 2,5 millones de páginas de la Wikipedia. En ese tiempo, muchas de las páginas habrán cambiado, por lo que tendrán que ser leídas nuevamente. Powerset es impresionante, pero con la web teniendo en exceso de 20 mil millones de páginas que cambian constantemente, este no será un arma secreta, que Microsoft pueda comprar para conquistar el liderazgo del search.
Ya que estamos, el lanzamiento de Powerset inspirará sin dudas el interés de otro buscador de “lenguaje natural”, Hakia. Algún día, quiero revisitar Hakia y explicar porque no me gusta tampoco el término “lenguaje natural” aplicado a esto. Mientras tanto, podéis leer el excelente artículo de Vanessa Fox de octubre pasado Social Networking Through Search: Hakia Helps You Meet Others (redes sociales a tráves de la búsqueda: Hakia te ayuda a encontrar a otros) Y si necesitáis desinflar la euforia sobre el tema del lenguaje natural, ver The Google Challengers: 2008 Edition (los que desafiantes de Google: edición 2008). En la parte que corresponde a Powerset, resumo una diatriba anterior sobre la historia y la exageración que rodea búsqueda con lenguage natural.
Para ver más artículos relacionados, ver Techmeme.
por Danny Sullivan
Enlace permanente
Historias relacionadas: Buscadores, Buscadores: Powerset, Buscadores: Wikipedia, Búsquedas, Características de Búsqueda: Búsqueda Refinada, Características de Búsqueda: Lenguaje Natural
4 comentarios en “Powerset lanza un “buscador que entiende” para la Wikipedia”
[...] unos meses Powerset sacó su versión del buscador de lenguaje natural para la Wikipedia, supongo que como una especie de banco de pruebas, primero experimentar con un contenido controlado [...]
[...] unos meses Powerset sacó su versión del buscador de lenguaje natural para la Wikipedia, supongo que como una especie de banco de pruebas, primero experimentar con un contenido controlado [...]
[...] varias fuentes dicen hoy que Microsoft está a punto de comprar Powerset, que ha sido un objetivo lógico de adquisición para los de Redmond desde antes de su lanzamiento [...]











[...] Powerset lanza un buscador que entiende para la Wikipedia (Danny Sullivan) [...]