Âges du web et outils de recherche documents images et sons documents (livres, revues) multimédia (vidéos, maps) web 2.0 (blogs, wikis, réseaux, micrblogging, tags) médias sociaux internet mobile données structurées 1995 2000 2005 2010 annuaires de liens recherche classique recherche universelle recherche sociale recherche personnalisée recherche temps réel recherche sémantique recherche mobile recherche anticipatoire recherche conversationnelle Moteurs de recherche « traditionnels » [reprise de supra] • Google realtime search : † suite à partenariat avec Twitter, 12/2009-07/2011 supprimée après fin de l’accord avec Twitter et alors que lancement de Google + • Bing social : http://www.bing.com/social (! en version US seulement, exemple) partenariat Microsoft/Twitter, 10/2009 intégration de résultats de Twitter, Facebook, Quora, Facebook…, mais résultats ne remontant pas à plus de 7 jours ? • Yahoo recherche Twitter : ? partenariat Yahoo/Twitter, 02/2010, mais actuellement plus d’onglet de recherche spécifique annonce le 16/05/2013 qu’il va commencer à inclure des tweets sur le page des news US (source) • Qwant : http://www.qwant.com/ recherche sociale : Facebook, Google + et Twitter Moteurs « temps réel » [reprise de supra] • Social Mention : http://socialmention.com plus de 80 sources (blogs, microblogging, bookmarking, multimédia…) recherche avancée : http://socialmention.
Moteurs de recherche « traditionnels » [reprise desupra]
•Google realtime search: † suite à partenariat avec Twitter, 12/2009-07/2011 supprimée aprèsfin de l’accordavec Twitter et alors que lancement de Google +
•Bing social :http://www.bing.com/social(! en version US seulement,exemple) partenariat Microsoft/Twitter, 10/2009 intégration de résultats de Twitter, Facebook, Quora, Facebook…, mais résultats ne remontant pas à plus de 7 jours ?
•Yahoo recherche Twitter : ? partenariat Yahoo/Twitter, 02/2010, mais actuellement plus d’onglet de recherche spécifique annonce le 16/05/2013qu’il va commencer à inclure des tweets sur le page desnews US source)
•Qwant :http://www.qwant.com/ recherche sociale : Facebook, Google + et Twitter
Moteurs « temps réel » [reprise desupra]
•Social Mention :http://socialmention.com plus de 80 sources (blogs, microblogging, bookmarking, multimédia…) recherche avancée:http://socialmention.com/advanced_searchet filtres +possibilité de choisir les sources concernées +flux RSS et alertes +nombreuses analyses (trends,top users,top hashtags…) -lent et non-exhaustif •Topsy :http://topsy.com/ Google + et archives de Twitter depuis 2008, mais pas exhaustif recherche avancée :http://topsy.com/advanced-searchet flitres +recherche de liens partagés, tweets, photos, vidéos, experts, tendances avec filtres +classement des tweets en fonction des RT (retweets) +alertes •Whos talkin :http://www.whostalkin.com/ plus de 50 sources (blogs, actualités, réseaux, vidéos, images…) -présentation des résultats peu satisfaisantes (pas de présentation des avatars) -non exhaustif •Icerocket :http://www.icerocket.com/ blogs, Twitter et Facebook recherche avancée et filtres spécifiques pour blogs uniquement -peu d’antériorité (5 j. ?) •Kurrently :http://www.kurrently.com Twitter, Facebook et Google + +recherches géolocalisées
Type de documents
•actualités !moteursde recherche temps réel ≠ moteurs de recherche d’actualités (agrégation)!
Ex. : Google actualités :http://news.google.com « GoogleActualités est un site d'actualités généré par ordinateur qui recueille les grands titres provenant de plus de 500 sources d'actualités en langue française dans le monde entier, regroupe les articles par thème et les affiche en fonction des intérêts de chaque utilisateur » +possibilité de personnaliser les résultats +nombreuses versions locales +alertes et flux RSS
NewsBrief :ettsh.mtltidiretelar//fonrBsweN/usulc/fei.new/emmef.esbript/:th projet du Joint research centre européen surveille 3 750 sites (10 000 flux RSS et pages HTML), 20 flux d’actualités commerciales et quelques sites spécialisés Intéressant de regarder news brief car doc dépêchesd’actualités, mises à jour toutes les 10min et classées automatiquement actualité mais filtre pdf ? +nombreux filtres (langues, localisation, thèmes…)
- « dictature du mot-clé »O. Andrieu: « il est clair que si la recherche basée sur les mots-clés est) incroyablement puissante, elle est également incroyablement limitative » (M. Mayer) : limites du mot-clé : problèmes des homonymes (ex. : Saint-Louis), synonymes… er pas/peu de compréhension du langage naturel (ex. : une chanson qui fait danser, un endroit où aller pour un 1 rendez-vous , cf.étude 2009) - classementdes résultats par popularité et non pertinence pas de compréhension du contexte de la recherche et du contenu des documents
tous documents données
- pratiques duclustering(regroupement) : pratique dedata mining, permettant une classification automatique des termes, notamment avec reconnaissance d’entités nommées - recherche sémantique : «La recherche sémantique désigne l’habilité d’un moteur de recherche de déterminer ce que vous voulez dire quand vous cherchez quelque chose et de vous fournir des résultats qui ne correspondant pas nécessairement aux mots que vous utilisez dans votre requête » (M. Karch) : prend en compte l’intention de l’internaute et le contexte de la recherche (localisation, désambiguïsation des termes, synonymes) et pas seulement les mots de la requête ; identifie des associations et des concepts compréhension du contexte de la question et possibilité de répondre sur un mode conversationnel
moteurs généralistes (Google, Bing) moteurs spécifiques pratique souvent du « mashup» (mixage d’informations et/ou de services)
domaine encore en développement : indexation des contenus, traitement sémantique… (cf.N. Aussenac-Gilles) outils majoritairement anglo-saxons (US) outils devant permettre de limiter les réponses inappropriées (comme les spams), mais : - validitéet fraîcheur des informations ? -visée potentiellement commerciale (ex. : conserver l’internaute plus longtemps sur une page) interfaces pas toujours intuitives et faciles d’utilisation
Clustering
•DuckDuckGo :https://duckduckgo.com/[référence au jeu du mouchoir, «duck duck goose» en anglais] moteur de recherche interrogeant une 50ne de sites (dont Bing, ou son propre moteur, et des sitescrowd-sourced(Wikipedia) limite les sites commerciaux et les recherches locales aide à la syntaxeet nombreuxgoodies +assure confidentialité des recherches : pas de stockage des adresses IP, peu d’utilisation des cookies… et rend possible recherche anonyme ; pas d’auto-correction des requêtes ’ heen cas d’homonymes Le plus intéressant car lien scribd et autr
set mots-+possibilité de faire un compte rendu sur la qualité d’un résultat -n’interroge que le web ; pour le reste (images, vidéos…), utilise d’autres moteurs «Could DuckDuckGo Be The Biggest Long-Term Threat To Google?»N. Safran,SearchEngineLand)
intérêts : - aide à la sélection - éliminations de corrélations inintéressantes–liste de résultats plus courte, mais avec plus de contenu (parfait pour mobiles) - suggestionsd’idées et de pistesnouvelles limites : - corrélations automatiques, donc potentiellement restrictives
La recherche sémantique
La recherche sémantique
•moteurs de recherche sémantique généralistes •Hakia :http://hakia.com/ recherche web, news, blogs, vidéos, images,galleries,credible sources -pas d’autres filtres que type de documents +mise en contexte du terme dans l’extrait -résultats pas toujours pertinents, sauf en médecine ex. : [« swine flu »] •Lexxe :http://www.lexxe.com/index.html système de «semantic key» (~500) permettant de trouver des concepts associés à ce terme
ex. : [vegetable: rich in vitamin A] +présence de statistiques pour les occurrences
La recherche sémantique
•Cognition :http://cognition.com Medline.Cognition :http://medline.cognition.com/ Wikipedia.Cognition :http://wikipedia.cognition.com/[Wikipedia en anglais] -mise à jour : 2008 !sensible à la casse (ex. : apple /Apple) +possibilité de définir les termes employés