Quick Upload

Loading...
Flash Player 9 (or above) is needed to view slideshows. We have detected that you do not have it on your computer.To install it, go here
Post to Twitter Post to Twitter
Share on Facebook
Myspace Hi5 Friendster Xanga LiveJournal Facebook Blogger Tagged Typepad Freewebs BlackPlanet gigya icons

20080522 Sec Bv Presentate Federated Search Nvb Hb V0.96

from frankhofstede, 5 months ago Add as contact

197 views | 0 comments | 0 favorites | 0 embeds (Stats)

Desc: This is a presentation outlining all the difficulties which must and can be conquered for federated search by a federated search engine

Embed customize close
 

Categories

Education

Groups/Events

More Info

This slideshow is Public

Views: 197 Comments: 0 Favorites: 0 Downloads: 0

View Details: 197 on Slideshare 0 from embeds
Flagged as inappropriate Flag as inappropriate

Flag as inappropriate

Select your reason for flagging this slideshow as inappropriate.

If needed, use the feedback form to let us know more details.

Slideshow Transcript

  1. Slide 1: Federated Search Een overzicht door Frank Hofstede (fhofstede@searchexpertisecentrum.nl)
  2. Slide 2:  • 1995 afgestudeerd DB, SE, DC, KT / AI • 1e 2 jaar gestructureerde gegevens – Intelligent Market Monitor • Daarna 2 jaar ongestructureerd – Multi Lingual Semantic Network • PL ESE implementaties – Convera Retrievalware
  3. Slide 3:  • Beloften v.s. Techniek – Suboptimale oplossingen • Oprichting SEC (2000) – Beste ESE, beste UI, alle bronnen, etc. – 8 jaar advisering F500 + NFP – Spinoffs: • IntelliGent BV • DigiSaurus BV i.o.
  4. Slide 4:  Knowledge gathering, storage and distribution?
  5. Slide 5:  • Regular Push – Mailing lists / RSS feeds / Blogs / Subscriptions – !! User can’t read it all, information overload • Regular Pull – Portals / Search engines – !! User has to know and take initiative • Sixth (information) Sense – Total Federated Search (Google on steroids) – Adaptive workplace – Just-in-time information retrieval
  6. Slide 6: • Google als voorbeeld • Veel bronnen / veel werk • Onbekendheid bestaan bronnen • Diverse Query talen en navigatiestructuren • ….? Gartner: YE08 Federation in > 50% projecten – Federator staat strategisch centraal ‘Excelling is no simple task for any vendor’
  7. Slide 7:  • Easily connect all sources of information the user uses, could want to use or wants to use • Preprocess the query using domain knowledge and statistics • Automatically dispatch the query to all the right sources (Censor the query if the source untrusted) • Handle login, navigation and query translation / formulation for each source automatically • Gather all results and keep only the best and relevant ones
  8. Slide 8:
  9. Slide 9:  • Eigenlijk altijd pluriform • Alle aanbieders vechten om UI maar volgens SEC niet doen!  WS Interface belangrijker dan GUI
  10. Slide 10:  • HTML – Door opmaak aan verandering onderhevig • XML – Al stuk beter maar steeds wiel uitvinden • Webservice / SRW – Mooie standaard maar niet futureproof • Broker2Broker – Werkt momenteel allen binnen 1 ‘merk’
  11. Slide 11:  • Uitbesteden – Bepaalde en beperkte stabiele set bronnen – Heel veel of sterk veranderende bronnen – Géén interne content • Zelf doen – Meerdere (E)CA – Interne content
  12. Slide 12:  • Tool?  SE? CE? – Aquabrowser – Meresco – Etc. • Dienst?  Index? Thesaurus? – EBSCO – Etc.
  13. Slide 13:  • SSL • Thuiswerkers • IP restricties • Limited access times • Contractuele restricties • Named users • …?
  14. Slide 14:  • GUI • Snelheid / Beschikbaarheid • Taal / Query language • Metadata normalisatie • Ranking / precision / recall • Toevoegen nieuwe bronnen
  15. Slide 15: • Flexibel! – Nieuwe bronnen worden steeds toegevoegd met steeds andere facetten / content • Maar.. Content in Context! – Probeer het aangeklikte resultaat in de ‘originele’ omgeving te tonen.
  16. Slide 16:  • Snelheid – Niet elke bron reageert even snel.. • Beschikbaarheid – of zowieso – Of de koppeling werkt niet meer
  17. Slide 17: • Taal / talen – Synoniemenlijst – MT Thesauri – ML Semantisch Netwerk Querytime vs Indextime • Query Language – CQL / mapping – Gartner: YE12 > 75% installaties user in query
  18. Slide 18:  • Metadata mappen / maken
  19. Slide 19:  • Normalisatie – Niet altijd mogelijk • Result reindexing – Kan heel zwaar zijn • Thesaurusgebruik – Wij gebruiken hem wel, maar zij? Gartner: Multistage relevancy – YE08 > 75% strategische IAT call API at Query Time
  20. Slide 20:  • vb: Kapow Mashup Server – Interactief zonder programmeren bronnen toevoegen? • Inventariseren – Van elke gewenste bron mogelijkheden en beperkingen vastleggen • Staging – Iedere bron doorloopt staging proces zo ver mogelijk (HTML Scraping  Zelf indexeren)
  21. Slide 21:
  22. Slide 22: How To beat Google
  23. Slide 29: • Al lang heel erg gelukkig als de query bij alle bronnen komt en uit alle bronnen de resultaten getoond kunnen worden • Metadata mapping, Faceted search over bronnen en Ranking normalisatie zijn al bijna rocket science
  24. Slide 30: • Personalization – Also observe the behavior and information the user is working on / with – Generate a personalized query based on the context of the user and a ‘profile of interest’ – Use implicit feedback mechanisms to fine-tune the users ‘profile of interest’ Gartner: YE12 > 75% installaties user in query – Meer variabelen  Nauwkeuriger – Spectrum van gestructureerd tot ongestructureerd – ‘Smart’ federation
  25. Slide 31: 
  26. Slide 32:  Vragen?