Zadnjih nekaj dni razmišljam o idealnem spletnem agregatu - kot soustvarjalca spletne vsebine me je vedno zanimalo avtomatično premetavanje podatkov ter iskanju uporabnega, zanimivega. Spisal sem tudi manjši sistem s podstrežniki, ki skrbijo za povezanost vsebine s spletnimi servisi in avtomatičnemu izpostavljanju -, a najprej bi opisal nekaj tipičnih napak, ki jih počno ustvarjalci tovrstnih servisov.
Prosto dostopna uporabniška baza
Ključ uspešnosti na spletu je uporabniška baza. Agregatu bazo predstavljajo povezave do blogov in RSS virov. Število vpisanih virov jim poveča tabelo podatkov, ob pravi uporabi tudi število obiskovalcev. Konkurenca je huda, uporabniško bazo je potrebno zaščitit.
Uporabniško ustvarjena baza virov
Zanimiv način, na katerega se opira večina ustvarjalcev blogerskih agregatov je kreiranje uporabniške baze (seznam virov podatkov) s strani uporabnikov. Lastno iskanje ali masivno dodajanje celotne uporabniške baze določenega blog ponudnika lahko nekajkrat poveča bazo virov. Podatki so prosto dostopni - če jih lahko Google doda v iskalnik, zakaj jih ne bi tudi v agregat?
Agregat s sortiranjem
Le agregat s možnostjo sortiranja podatkov je za uporabnika premalo. Menjavanje pogoja v SQL stavku je enostavno in uporabno do določene točke -, a s povečanjem uporabniške baze je potrebno podatke razvrščati, izpostaviti boljše. Digg je uspešen predstavnik “grupiranja” podatkov.
Pametna vsebina
Na spletu obstajajo napredne aplikacije, ki omogočajo avtomatično iskanje sorodne vsebine. Agregat naj ne bo le pusto kopiranje ter razvrščanje, pač pa bogatenje zapisanega. Splet se nikoli ne konča -, naj ga ne bo konec na vaši spletni strani.
Na koncu pa bom napisal še par besed o poskusu, na katerem trenutno delam. Ustvaril sem vrjetno največjo bazo virov slovenskih blogov - podatke sem pridobil z agregatov (beri: prosto dostopa uporabniška baza), ponudnikov blog domovanj, .. Končna številka se giblje okrog 10.000.
Obdelava ogromne baze podatkov zahteva optimiziran in centraliziran sistemom, ki skrbi za pregled in obdelavo. V dvodnevnem zbiranju v tem trenutku v bazi hranim preko 40.000 blog zapisov. V sistem sem za obdelavo podatkov povezal 3 strežnike -, 10.000 blogov pregleda, obdela in shrani podatke v približno 40 minutah.
Zaenkrat se bomo morali zadovoljiti s parimi slovenskimi agregati in drobci uporabniške baze, razdrobljene po celem spletu in portalom z uredniško izbrano vsebino -, v prihodnosti pa pričakujem uporabniško-uredniško koherenco, ki bo avtomatično ustvarjanje baze uspešno nadgradila z izbrano spletno vsebino.
18. februar 2008 | Kategorije:
Tehnaža