24 août 2009
Yauba, recherche sémantique et anonymat
"Yauba est basé sur plus de 25 années de recherche de pointe à l'Indian Institute of Technology, l'Université de Delhi, le Massachusetts Institute of Technology, l'Université de Harvard et l'Université de Californie à Berkeley. Pour cette raison, Yauba offre les caractéristiques, les innovations et les technologies parmi les plus avancées au monde"(1). En lisant ces lignes sur le site du moteur, j'ai voulu en savoir plus. Assurément la carte de visite est plutôt jolie.
En effet, le moteur se démarque de bien d'autres moteurs par une combinaison pertinente de fonctionnalités : algorithmes pour éliminer l'ambiguïté des termes de recherche, regroupement des résultats par type de contenu, surf anonyme et recherche parmi les sources web 2.0.
1. Un moteur pour une recherche sémantique. Yauba se concentre sur la sémantique des concepts (et non sur la fréquence) des termes de recherche. Un terme entré dans un moteur peut parfois recouvrir plusieurs sens. Par exemple le terme "golf" peut désigner le sport ou la voiture. La plupart des outils ne font pas la distinction. D'où l'intérêt d'utiliser un moteur qui "comprend" ce que vous cherchez. Dans ses versions anglophones, Yauba vous demande de préciser le sens du terme entré en affichant d'autres significations. Vous chercherez donc dans un corpus plus restreint. Testez-le avec des termes comme "sun", "java" ou "intelligence".
2. Regroupement des résultats. Sans avoir sélectionné de source, votre recherche générale vous présentera les 5 meilleurs résultats pour les sites, images, pdf, réseaux sociaux, etc. Les résultats sont pertinents et regroupés dans des panneaux successifs. Vous avez la possibilité de fermer un ou plusieurs panneaux pour faciliter la consultation des résultats.
3. Sécurité et anonymat. Yauba est réellement conseillé comme outil de surf qui protège votre vie privée, comme on peut le lire sur cette page de l'Internet Privacy Forum. Leur politique de confidentialité est très claire: "(...) nous avons une obligation morale de protéger la confidentialité et la sécurité de nos utilisateurs. (...) nous n'utilisons pas du tout de cookies." Et ils ne conservent aucune information qui identifie l'utilisateur personnellement. En regard de chaque résultat se trouve un lien "Visiter de manière anonyme", votre navigation apparaît alors dans un frame et vous assure l'anonymat. On sait aujourd'hui que pour améliorer leurs services, les moteurs de recherche dont Google essayent d'en apprendre le plus possible sur leurs utilisateurs, voir le Google Privacy Center. C'est donc une démarche à contre-courant de la tendance actuelle. Cette approche sera bienvenue pour les spécialistes en veille et les courtiers en information.
4. Mise en valeur des sources web 2.0. Vous pouvez faire une recherche prenant en compte non seulement les sites web mais aussi les sites "temps réel" de microblogging comme Twitter, les médias traditionnels, les "social news" comme Digg, les blogs bien sûr, les "réponses" du genre Wiki Answers ou Yahoo! Answers, les réseaux sociaux comme LinkedIn et enfin les images, vidéos, PDF, Word et PowerPoint. Selon la source Web 2.0 choisie, vous pourrez également trier les résultats par source, date de parution, journaliste/agence, etc.
Pourquoi j'utilise Yauba ?
Même si l'outil n'est pas comparable à Google en terme de taille d'index, ce moteur m'offre les avantages suivants :
- Recherche sémantique pour affiner les résultats (diminution du bruit)
- Mise en évidence des suggestions de recherche et biographies de personnes connues (cerner un sujet)
- Recherche combinée parmi les sites, images, vidéos, réseaux sociaux, ... (ne plus interroger plusieurs sites)
- Recherche en "temps réel" de sources plus rapidement à jour que Google (indexation du contenu Twitter)
Mes impressions à l'utilisation
Si vous cherchez un terme comme "golf", le moteur référence près de 3 milliards de résultats pour les sites web. Mais le moteur vous présente les différents sens possibles. Si vous souhaitez en savoir plus sur la voiture, cliquez sur le lien "Volkswagen Golf". Parmi les résultats, vous pouvez ne voir que les sites web en choisissant cette option dans la liste déroulante. Yauba vous propose alors une liste de mots-clés pour affiner votre recherche. En choisissant "Hatchback", vous ne consultez plus que 6 résultats.
D'autre part, si vous cherchez de l'information sur une personnalité connue, vous obtiendrez un encart biographique, essayez par exemple "Steve Jobs". J'ai voulu interroger le moteur avec quelques grands esprits de notre époque comme "Tony Buzan", "Alvin Toffler" ou "Ray Kurzweil". Le comportement du moteur m'a favorablement impressionné. Les résultats pour les sites web sont sensiblement identiques à Google mais j'ai apprécié que le moteur me propose parfois une petite biographie. Yauba donne systématiquement le site officiel de la personne recherchée comme premier résultat. Contrairement à Google, Yauba ne remplit pas l'écran de résultats par des liens commerciaux, ou encore ne reprend pas en premier un lien wikipedia. Autre avantage, très appréciable, un encart reprend des propositions de recherches alternatives utiles ("Try these searches" ou "Essayez aussi" dans sa version française). En un coup d'oeil, je peux ainsi cerner mon sujet grâce à cet encart tout en élargissant ma recherche. Essayez par exemple de chercher sur "Stephen Hawking", vous verrez que les suggestions de recherche de Yauba sont bien plus intéressantes que les "recherches apparentées" proposées en fin de page par Google.
Le nombre de vidéos retrouvées est similaire au nombre de résultats dans Youtube, même si Yauba ne se limite pas à ce site de partage de vidéos. Autre point positif, les miniatures des vidéos et des images sont disposées dans une matrice plutôt que l'une en-dessous de l'autre, ce qui implique que l'ergonomie a été réfléchie.
A essayer de toute urgence
Yauba est un moteur rapide, pertinent et doté de nombreuses fonctionnalités utiles. Tout comme Google, il se décline par pays. Yauba est à conseiller à de nombreux utilisateurs professionnels ou non. Par ses atouts, il rappelle un peu les metamoteurs de recherche, je pense à un outil comme Clusty qui catégorise les résultats après avoir éliminer les doublons venant de différents moteurs de recherche. Pour moi, Yauba constitue une excellente alternative à Google.
Pour en savoir plus :
- Voir la vidéo introductive de Yauba
- Lire la description des fonctionnalités du moteur
- Yauba, le moteur de recherche anonyme
- Yauba, moteur innovant et anonymisant
- L'opinion de TechCrunch
- Comparatif de 14 moteurs de recherche temps réel
- Lien wikipedia sur l'analyse sémantique
(1) Yauba posséderait même des « technologies avancées d’intelligence artificielle ». Ayant eu le plaisir d’échanger récemment avec Jean-Claude Heudin, je lui ai demandé s’il s’agissait réellement d’une IA. Voici sa réponse : Même si « les algorithmes dont on parle ici sont tous nés dans cette mouvance de recherche », « (…) On ne peut pas assimiler un moteur de recherche aussi sympathique soit-il à une « véritable » IA, c’est-à-dire une entité douée de certaines propriétés que l’on attribue généralement à un humain ou aux êtres vivants ». (…) « Yauba est selon moi une IR (intelligence restreinte), grosso modo un « programme intelligent », et non une IA ».
28 mars 2008
William Gibson et Google
La revue Chronic'Art du mois de mars 2008 propose un portrait de William Gibson. Ecrivain américain, père du mouvement Cyberpunk, mouvement littéraire qui aurait pressenti le réseau. Il déclare dans cette interview : « Aujourd’hui, en écrivant, je me soucie beaucoup de la façon dont les gens peuvent chercher sur Google des lieux ou des noms apparaissant dans mon texte. Je rédige dorénavant avec la conscience que ce que j’écris sera sans doute Googler. C’est une prise de conscience et un potentiel narratif authentiquement inédit ». William Gibson ne dit pas précisément les conséquences concrètes de cette idée sur son écriture, mais il est clair que Google intervient ici directement sur une écriture réelle. C’est un peu comme si le monde réel se nourrissait de Google pour s’adapter à lui.
19 février 2008
Référencement, conseils d'une spécialiste en SEO
Sandrine Saporta, responsable marketing et développement à l'agence Ciblo, nous gratifie dans cet article de quelques bons conseils pour améliorer le référencement de site.
Elle rappelle que les techniques de base d’un bon référencement sont l’optimisation du site (balises mots-clés, titre...), le plan du site, les URL rewriting, les échanges de liens. Mais le contenu est devenu un élément clé. Aujourd’hui, des sites éditoriaux arrivent en tête sur Google, car le contenu optimise leur référencement.
Elle ajoute : « Je pense qu'aujourd'hui, c'est la fin des petites astuces douteuses. (…) Le TrustRank est une marque déposée de Google qui correspond à une nouvelle notion: l'indice de confiance. C'est-à-dire que Google va attribuer une "note" secrète en fonction de critères qui ne sont plus axés seulement sur le nombre de liens, mais surtout sur la qualité des liens qui pointent sur votre site. »
Dès lors, cet indice de confiance tend à devenir plus important que le PageRank. A condition d’être qualitatif et pertinent, l’échange de liens reste cependant très important. Ce n'est donc plus la quantité de liens qui prime.
Et comment savoir si ses pages sont bien référencées par les robots ?
Il faut comprendre que les moteurs ne voient ni les images, ni les polices de caractères, ni le flash. De plus, il faut éviter les frames et les tableaux. La bonne méthode consiste à soumettre son site aux robots en appliquant ces conseils, tout en proposant un plan du site. Alors les pages seront aisément accessibles par les moteurs.
En conclusion : « La vraie rentabilité aujourd'hui s'obtient en ayant une stratégie combinée de référencement naturel et de liens sponsorisés. »
Sandrine Saporta est l'auteure de Référencement sur le net. Voir également une note de lecture de cet ouvrage.
04 février 2008
SEO, Search Engine Optimization
Le référencement internet ou Search Engine Marketing (SEM) est une discipline
e-marketing qui permet à votre site web de ressortir en tête des résultats des principaux moteurs de recherche tels que Google, Yahoo! ou Live Search.
Ces techniques visent à apporter un maximum d'informations concernant le contenu d'une page web aux robots d'indexation des moteurs de recherche. Les résultats du référencement se traduisent par l’augmentation du volume et de la qualité du trafic sur votre site, l’augmentation de votre notoriété, de nouvelles opportunités commerciales, etc. On considère généralement que le positionnement d'un site est bon lorsqu'il est classé dans l'une des dix premières réponses d'une recherche sur des mots-clés correspondant précisément à sa thématique.
1. Le référencement naturel ou organique (Search Engine Optimization ou SEO) consiste à optimiser la structure et le contenu de votre site internet afin que celui-ci apparaisse en tête des résultats naturels ou organiques des moteurs de recherche.
Il existe des freins qui empêchent un référencement efficace par les moteurs. Certains de ces freins proviennent du design même du site, de la surabondance d’images cliquables en lieu et place de liens hypertextes, ou encore de la solution CMS utilisée.
2. L’achat de mots-clés ou Search Engine Advertising (SEA) permet de positionner un site internet dans les résultats de tête des liens sponsorisés, pour une durée et un budget déterminés. Cette technique est complémentaire au référencement naturel (Search Engine Optimization).
Le Search Engine Advertising se base sur 2 principes. Le premier est le "Pay per click". En d’autres termes, vous ne payez que quand un visiteur clique sur votre lien. Le second est le système des enchères qui consiste à acheter au plus offrant une annonce pour un mot-clé. Aussi celui qui propose le meilleur prix par clic augmente ses chances d’apparaître en tête des liens sponsorisés.
Google propose un manuel pour les SEO débutants. Voir aussi le précédent billet sur le référencement et la page Search Engine Tools.
20 décembre 2007
Ce que le Belge recherche sur la toile
Le quotidien belge "La Libre" nous propose un article sur "les recherches les plus populaires en Belgique", selon Google Zeitgeist. En voici un court extrait :
« En cette fin d’année, le Google Zeitgeist 2007 fait un zoom sur le comportement des Belges lors de leurs recherches sur http://www.google.be. Des concerts les plus courus aux objets de seconde main en passant par les destinations de vacance, les résultats des statistiques de Google prouvent que le Belge effectue des recherches plutôt pointues. Google a également élu la ville la plus intéressée par les thèmes suivants: emploi, recyclage, sport, bière, party, météo, amour, vidéo, mode, roi et Axelle Red. » … « Etant donné le volume important d’internautes qui utilisent Google dans leur recherche d’actualités et d’informations, le Zeitgeist de Google représente une base pertinente pour essayer de s’imaginer à quoi pensent les utilisateurs belges. »
Google Zeitgeist ou "l'air du temps" nous donne un aperçu hebdomadaire, mensuel ou annuel de ce qu'un ensemble d'utilisateurs recherchent sur le web. Pour en savoir plus, visitez le blog officiel de Google.
09 octobre 2007
Google Co-op CSE, créer son moteur personnalisé
Disponible depuis mai 2006, la plate-forme Google Co-op permet aux développeurs d'intégrer de l'information spécialisée dans les recherches web. Trois services sont actuellement proposés sur cette plate-forme : Custom Search Engine, Subscribed Links et Topics. Utilisant la base de Google, elle offre la possibilité de créer des moteurs de recherche personnalisés, mais aussi de raffiner et de catégoriser les questions.
Custom Search Engine (CSE) permet à tout un chacun de créer son propre moteur de recherche, aussi appelé moteur de recherche personnalisé ou vertical. En quelques minutes, un internaute peut créer ce service et l'intégrer dans son site, son blog ou simplement maintenir une page sur le serveur de Google. Les conditions ? Avoir un compte Google, connaître ses besoins et fournir sa liste de sites à interroger. En prime, vous pouvez personnaliser le design des pages lors de vos recherches, mais aussi gérer et interroger vos moteurs en ajoutant la "Custom Search Console" à votre page personnelle iGoogle. Enfin, pour ceux qui reçoivent 100 visiteurs par jour, Google AdSense peut être associé à votre site pour générer des revenus.
Subscribed Links sont les résultats web auxquels les utilisateurs peuvent souscrire. Sans nécessairement savoir comment créer un flux, n'importe quel internaute peut créer un nouveau Subscribed Link. Ces abonnements sont ensuite disponibles dans un répertoire spécifique.
Topics sont des territoires particuliers de recherche qui sont créés par des connaisseurs. Ces "topics" sont ensuite présentés au sommet de recherches web pertinentes, afin de permettre à l'internaute de raffiner ses recherches à sa meilleure convenance. Parmi les Topics disponibles : santé, sciences, ordinateurs, jeux vidéos, actualités, divertissement, etc.
Mais revenons à Google Custom Search Engine. Voici l'avantage pour les professionnels de l'information expliqué dans un billet du site Actulligence : "L'avantage de ce nouveau type d'outil est bien de pouvoir rechercher uniquement dans des sources que vous avez qualifiées au préalable. Si vous êtes une documentaliste ou un veilleur, vous vous reposez probablement sur un ensemble de sources (vos favoris) privilégiant les organismes de référence dans votre secteur, des blogs d'experts, etc. C'est le moment ou jamais de les exploiter grâce à Google. Vous échapperez ainsi à tout le contenu commercial du web, souvent beaucoup mieux positionné, et surtout vous trouverez plus facilement l'information, passant pour la même recherche de 10 000 000 millions de résultats à une centaine."
Pour en savoir plus, consultez la Wikipedia, le billet du blog Les Infostratèges, le blog de l'équipe Google Custom Search et enfin le répertoire des moteurs spécialisés de Google.
Pour terminer, un petit mot sur Rollyo créé en 2005, l'un des pionniers dans le domaine des moteurs spécialisés ou verticaux. Il travaille à partir de l'index de Yahoo et permet de mener des recherches dans les "Searchrolls", sorte de bouquets de sites prédéfinis par l'internaute. Une limitation cependant, on ne peut pas choisir plus de 25 sites.
17 août 2007
SPOCK, moteur spécialisé dans la recherche d'internautes
On connaissait déjà Pipl (http://pipl.com) pour retrouver des individus sur la toile, et voici qu'un tout nouveau moteur de recherche (le 8 août 2007) se présente comme un sérieux concurrent dans ce créneau. Son nom, Spock ou "Single point of contact and knowledge". Pas moins de 100 millions de profils sont répertoriés. Si vous êtes inscrit sur un site de réseau social ou social networking, il possède peut-être une fiche sur vous.
« Lorsque vous tapez le nom d'une personne sur Google, il y a tellement de documents ou de bruits qu'il est difficile de trouver une information [sur cette personne en particulier] », explique à CNET News.com Jaideep Singh, directeur exécutif et cofondateur de la société. Selon ses estimations, près d'une recherche sur trois lancées avec les moteurs concerne une personne. « C'est alors que nous avons réalisé que nous sommes dans une excellente position sur le marché, où il existe des tonnes d'informations liées aux personnes. Les internautes ont par exemple des pages de biographie sur leur site, ou alors leur propre page MySpace, etc. ».
Le moteur s'appuye sur les réseaux sociaux
Spock a donc mis au point une technologie qui indexe le web, comme un moteur classique, mais renvoie toutes les informations concernant une personne en particulier. Le moteur référence aussi bien les personnalités et stars que les internautes lambda, en s'appuyant sur les réseaux sociaux type Facebook ou MySpace, les blogs, réseaux sociaux ou toute autre donnée personnelle publiée sur internet. Aux côtés d'une fiche de signalement (âge, sexe, taille, pseudos...), Spock peut notamment afficher les photos de la personne mises en ligne, ainsi que celles de ses relations ou amis. Une liste de mots-clés associés est également présentée, ainsi que les éventuels moyens de contact (adresse e-mail, etc.).
Les recherches de personnes peuvent être faites sur un nom, une profession (astronaute, pilote...) ou tout autre distinction : prix Nobel, figure politique anti-avortement sont des exemples mis en avant sur le site. Un système de mots-clés permet de faciliter le classement et de relier entre elles les personnes d'une même famille ou encore du même univers professionnel. Pour l'instant, le moteur, en version bêta, ne permet pas la recherche avec des caractères accentués.
Les internautes sont fichés sans leur autorisation
Bien que l'idée d'origine parte d'une bonne intention, on comprend aisément que tous les internautes ne sont pas d'accord de se voir fiché sans qu'on leur demande leur autorisation. Car au final, ce sont toutes les informations qu'un internaute peut laisser sur la toile qui sont agrégées en un seul profil. Et c'est bien là que le bas blesse. Sur internet, chacun laisse des traces sur les blogs, les forums de discussion, les réseaux sociaux qui décrit ce que nous pensons, ce que nous achetons, ce que nous aimons ou pas. Mais tout le monde n'est pas d'accord de voir ces outils nous ressortir aujourd'hui des propos exprimés dans le passé pour lesquels nous ne sommes pas vraiment fiers !
Faut-il considérer que chacun doit assumer ses propos sur la toile, comme ceux laissés sur les forums de discussion par exemple ? Peut-être bien, mais une chose est sûr, ces sites américains n'ont pas une vision aussi protectrice du droit de la protection de la vie privée que celle du droit européen... Cependant, Spock nous laisse une porte de sortie, c'est aussi un moteur de recherche participatif qui permet à l'intéressé de modifier son profil s'il s'identifie dans le système en entrant son e-mail. L'internaute peut alors sélectionner les informations qu'il souhaite partager.
C'est donc finalement un système assez pervers : Par défaut, on s'y trouve (sans son consentement) et si on veut y être à son avantage, il faut y adhérer pour pouvoir modifier ses données. Enfin, il est à noter qu'il est actuellement impossible de supprimer son profil.
Voir aussi l’article de Futura-Sciences. Pour en savoir plus sur la gestion de votre identité numérique sur le web. Mais aussi le site d'Olivier Zara dédié à cette problématique.
14 août 2007
PIPL vous aide à retrouver un internaute
Donnez-lui le nom, le prénom (il n'aime pas les accents), la ville et le pays, et Pipl vous trouvera la personne que vous recherchez. Si elle habite aux États-Unis ou au Canada, vous pourrez accéder à toutes les informations disponibles sur le web à son propos. Pipl utilise plusieurs moteurs de recherche classiques pour compiler ses résultats. Il collecte des informations sur de nombreuses sources (Infospace, Google, base de données de brevets, etc.). A la différence des moteurs classiques, il parcourt le web profond (deep web) en temps réel pour retrouver l'information.
11 août 2007
Gilles Balmisse, interview du 18 avril 2007
Gilles Balmisse de Knowledge Consult : "La recherche d'information n'est pas l'accès à l'information. La recherche d'information interne constitue une problématique de plus en plus forte pour les entreprises. Faire reposer sa stratégie sur la mise en place de solutions ne suffit pas." Consultez l'article en 3 questions sur le site Journal du net.
Scientific Commons, outil de recherche en sciences
http://en.scientificcommons.org/
Scientific Commons est un nouveau moteur de recherche qui interroge plus de 850 archives institutionnelles scientifiques en accès libre. Il donne déjà accès à plus de 13 millions de documents.
