Loading...
Flash Player 9 (or above) is needed to view slideshows. We have detected that you do not have it on your computer.To install it, go here
Slideshow Transcript
- Slide 1: Federated Search Een overzicht door Frank Hofstede (fhofstede@searchexpertisecentrum.nl)
- Slide 2: • 1995 afgestudeerd DB, SE, DC, KT / AI • 1e 2 jaar gestructureerde gegevens – Intelligent Market Monitor • Daarna 2 jaar ongestructureerd – Multi Lingual Semantic Network • PL ESE implementaties – Convera Retrievalware
- Slide 3: • Beloften v.s. Techniek – Suboptimale oplossingen • Oprichting SEC (2000) – Beste ESE, beste UI, alle bronnen, etc. – 8 jaar advisering F500 + NFP – Spinoffs: • IntelliGent BV • DigiSaurus BV i.o.
- Slide 4: Knowledge gathering, storage and distribution?
- Slide 5: • Regular Push – Mailing lists / RSS feeds / Blogs / Subscriptions – !! User can’t read it all, information overload • Regular Pull – Portals / Search engines – !! User has to know and take initiative • Sixth (information) Sense – Total Federated Search (Google on steroids) – Adaptive workplace – Just-in-time information retrieval
- Slide 6: • Google als voorbeeld • Veel bronnen / veel werk • Onbekendheid bestaan bronnen • Diverse Query talen en navigatiestructuren • ….? Gartner: YE08 Federation in > 50% projecten – Federator staat strategisch centraal ‘Excelling is no simple task for any vendor’
- Slide 7: • Easily connect all sources of information the user uses, could want to use or wants to use • Preprocess the query using domain knowledge and statistics • Automatically dispatch the query to all the right sources (Censor the query if the source untrusted) • Handle login, navigation and query translation / formulation for each source automatically • Gather all results and keep only the best and relevant ones
- Slide 8:
- Slide 9: • Eigenlijk altijd pluriform • Alle aanbieders vechten om UI maar volgens SEC niet doen! WS Interface belangrijker dan GUI
- Slide 10: • HTML – Door opmaak aan verandering onderhevig • XML – Al stuk beter maar steeds wiel uitvinden • Webservice / SRW – Mooie standaard maar niet futureproof • Broker2Broker – Werkt momenteel allen binnen 1 ‘merk’
- Slide 11: • Uitbesteden – Bepaalde en beperkte stabiele set bronnen – Heel veel of sterk veranderende bronnen – Géén interne content • Zelf doen – Meerdere (E)CA – Interne content
- Slide 12: • Tool? SE? CE? – Aquabrowser – Meresco – Etc. • Dienst? Index? Thesaurus? – EBSCO – Etc.
- Slide 13: • SSL • Thuiswerkers • IP restricties • Limited access times • Contractuele restricties • Named users • …?
- Slide 14: • GUI • Snelheid / Beschikbaarheid • Taal / Query language • Metadata normalisatie • Ranking / precision / recall • Toevoegen nieuwe bronnen
- Slide 15: • Flexibel! – Nieuwe bronnen worden steeds toegevoegd met steeds andere facetten / content • Maar.. Content in Context! – Probeer het aangeklikte resultaat in de ‘originele’ omgeving te tonen.
- Slide 16: • Snelheid – Niet elke bron reageert even snel.. • Beschikbaarheid – of zowieso – Of de koppeling werkt niet meer
- Slide 17: • Taal / talen – Synoniemenlijst – MT Thesauri – ML Semantisch Netwerk Querytime vs Indextime • Query Language – CQL / mapping – Gartner: YE12 > 75% installaties user in query
- Slide 18: • Metadata mappen / maken
- Slide 19: • Normalisatie – Niet altijd mogelijk • Result reindexing – Kan heel zwaar zijn • Thesaurusgebruik – Wij gebruiken hem wel, maar zij? Gartner: Multistage relevancy – YE08 > 75% strategische IAT call API at Query Time
- Slide 20: • vb: Kapow Mashup Server – Interactief zonder programmeren bronnen toevoegen? • Inventariseren – Van elke gewenste bron mogelijkheden en beperkingen vastleggen • Staging – Iedere bron doorloopt staging proces zo ver mogelijk (HTML Scraping Zelf indexeren)
- Slide 21:
- Slide 22: How To beat Google
- Slide 29: • Al lang heel erg gelukkig als de query bij alle bronnen komt en uit alle bronnen de resultaten getoond kunnen worden • Metadata mapping, Faceted search over bronnen en Ranking normalisatie zijn al bijna rocket science
- Slide 30: • Personalization – Also observe the behavior and information the user is working on / with – Generate a personalized query based on the context of the user and a ‘profile of interest’ – Use implicit feedback mechanisms to fine-tune the users ‘profile of interest’ Gartner: YE12 > 75% installaties user in query – Meer variabelen Nauwkeuriger – Spectrum van gestructureerd tot ongestructureerd – ‘Smart’ federation
- Slide 31:
- Slide 32: Vragen?

