Slovenski Super Agregat

Zadnjih nekaj dni razmišljam o idealnem spletnem agregatu - kot soustvarjalca spletne vsebine me je vedno zanimalo avtomatično premetavanje podatkov ter iskanju uporabnega, zanimivega. Spisal sem tudi manjši sistem s podstrežniki, ki skrbijo za povezanost vsebine s spletnimi servisi in avtomatičnemu izpostavljanju -, a najprej bi opisal nekaj tipičnih napak, ki jih počno ustvarjalci tovrstnih servisov.

Prosto dostopna uporabniška baza
Ključ uspešnosti na spletu je uporabniška baza. Agregatu bazo predstavljajo povezave do blogov in RSS virov. Å tevilo vpisanih virov jim poveča tabelo podatkov, ob pravi uporabi tudi število obiskovalcev. Konkurenca je huda, uporabniško bazo je potrebno zaščitit.

Uporabniško ustvarjena baza virov
Zanimiv način, na katerega se opira večina ustvarjalcev blogerskih agregatov je kreiranje uporabniške baze (seznam virov podatkov) s strani uporabnikov. Lastno iskanje ali masivno dodajanje celotne uporabniške baze določenega blog ponudnika lahko nekajkrat poveča bazo virov. Podatki so prosto dostopni - če jih lahko Google doda v iskalnik, zakaj jih ne bi tudi v agregat?

Agregat s sortiranjem
Le agregat s možnostjo sortiranja podatkov je za uporabnika premalo. Menjavanje pogoja v SQL stavku je enostavno in uporabno do določene točke -, a s povečanjem uporabniške baze je potrebno podatke razvrščati, izpostaviti boljše. Digg je uspešen predstavnik “grupiranja” podatkov.

Pametna vsebina
Na spletu obstajajo napredne aplikacije, ki omogočajo avtomatično iskanje sorodne vsebine. Agregat naj ne bo le pusto kopiranje ter razvrščanje, pač pa bogatenje zapisanega. Splet se nikoli ne konča -, naj ga ne bo konec na vaši spletni strani.

Na koncu pa bom napisal še par besed o poskusu, na katerem trenutno delam. Ustvaril sem vrjetno največjo bazo virov slovenskih blogov - podatke sem pridobil z agregatov (beri: prosto dostopa uporabniška baza), ponudnikov blog domovanj, .. Končna številka se giblje okrog 10.000.

Obdelava ogromne baze podatkov zahteva optimiziran in centraliziran sistemom, ki skrbi za pregled in obdelavo. V dvodnevnem zbiranju v tem trenutku v bazi hranim preko 40.000 blog zapisov. V sistem sem za obdelavo podatkov povezal 3 strežnike -, 10.000 blogov pregleda, obdela in shrani podatke v približno 40 minutah.

Zaenkrat se bomo morali zadovoljiti s parimi slovenskimi agregati in drobci uporabniške baze, razdrobljene po celem spletu in portalom z uredniško izbrano vsebino -, v prihodnosti pa pričakujem uporabniško-uredniško koherenco, ki bo avtomatično ustvarjanje baze uspešno nadgradila z izbrano spletno vsebino.

Komentarji

Tvoje ideje so super, vendar pa se vse začne (in konča) pri naravi slovenskih uporabnikov spleta (in seveda tudi bralcev blogov).

Sortiranje in izpostavljanje dobrih pri nas ne deluje, ker slovenski uporabniki niso navajeni klikati na vse, kar jih vabi. Digg v Sloveniji zagotovo ne bi preživel, poglej, kaj se je zgodilo s slovenskim delom Reddita. Ni mase, ni želje po soustvarjanju. Predstavljam si, da bi bloger raje še sam napisal prispevek na isto temo kot avtor dobrega prispevka (in to SE dogaja) kot pa da bi mu pritisnil točko. Prav tako je pri nas dodobra uveljavljeno to, da glasuješ za prijatelja (in itak se vsi poznamo…) in potlačiš nekoga, ki ti ni všeč…

O ’sorodnih temah’ ipd. ne bom razglabljal - sistem je bil že v nastajanju, pa sem ga potem iz različnih vzrokov opustil.

Kar se pa tiče večje baze - na SloBlogih vodim politiko, da so vključeni samo blogi, ki jih avtorji dodajo sami. Nikogar ne bom silil in ga na silo vključeval. Že res, da če je vir javno dostopen, da ti nihče naj ne bi prepovedal njegovo uporabo, vendar pa v praksi ni tako (in to sem izkusil na lastni koži).

Kar se pa ostalih dodatkov tiče - že sedaj sem na meji zmogljivosti z gostovanjem, možnosti postavitve lastnega strežnika nimam, da bi pa v agregat vlagal še več denarja, mi pa trenutno niti finančno ne znese.

18. februar 2008 - Robi

Digg in Reddit kot razumem nista agregata, temveč imenika uporabniško dodane in sortirane vsebine. Tak koncept res lahko deluje le ob veliki masi ljudi, na kar v Sloveniji, kot sam praviš, ne moremo računati. Je pa tudi res, da je Reddit za par stopenj slabši portal (slabša preglednost, ocenjevanje, ..) kot Digg, kjer pa sem srečal že kar precej slovencev.

Sorodne teme (besedilo, video, slike) so mi osebno zelo zanimiv način povezovanja spleta - sam bi jo nadgradil še s “perečimi temami” - tiste teme, ki so bile v zadnjem dnevu, tednu, mesecu največkrat omenjene v zapisih.

Vsak portal ima seveda svojo politiko - jaz razmišljam predvsem o razliki med spletnim imenikom in spletnim iskalnikom - Matkurja vs. Najdi.si. Ko se neka vsebina, magari XML fajl, pojavi na spletu, je javno dostopen. Indeksera ga Google, indeksera ga Najdi.si in kup ostalih iskalnikov, zakaj ga ne bi indeksiral tudi agregat. V primeru Digg-a npr. ni potrebno, da sam avtor “naloži” določen zapis/vsebino, pač pa to lahko stori vsak bralec.

Se strinjam, agregat lahko precej obremeni strežnik - odvisno od podatkov. ÄŒe bi želeli npr. mojo “skripto” z 10.000 viri pretvorit v javno dostopen sistem, bi potrebovali najmanj 6 strežnikov.
Sam sem npr. pri izpisu (40.000+ vrstic v bazi) preizkusil raznorazne kompresije & cache - moram rečt, da za 10x pohitrijo izpis & razbremenijo strežnik. Ne vem, ali to slovenski agregati uporabljajo, bi pa ob dokaj statičnih podatkih & le strežniškemu dodajanju novih precej prišparali na strežniški moči.

p.s. Zgornji zapis ne leti kot kritika na slovenske agregate - gre le za moje “vizije”, ki jih pač gradim na temeljih poznavanju slovenskih & deloma tujih portal-agregatov.

18. februar 2008 - andrej

Ne ne, saj nisem vzel kot kritiko, samo povem, da večina konceptov v slovenskem prostoru ne deluje. Verjetno bi bilo za SLO sceno najbolje, da bi se združilo par strani in izpililo tvoj koncept - v tem primeru bi morda bilo še kaj uresničljivo..

In kar se strežnika tiče - jaz prostor najemam, da bi sanjal o svojem strežniku - ne gre, poleg tega bi v tem primeru moral biti zadaj denar. Pa si poglej SloBloge - še oglasov nimam.

18. februar 2008 - Robi

A ja, še glede indeksiranja - ne gre tako. Pravno mogoče že, ljudje pa tega ne dojemajo tako. Menijo, da je RSS vir njihov in da ti lahko indeksiranje tudi prepovejo… Saj je bilo polno prepovedi in debat na to temo po blogih…

18. februar 2008 - Robi

Se strinjam. Strani bi se morale povezati !
.. oziroma potrebujemo centralen portal, četudi je nov. Včasih je za to skrbel SiBlogs, pa ga je čas povozil ..

Vrjamem .. nekateri ljudje ne razumejo, da je indeksiranje v njihovem interesu. Kakorkoli, če lahko indeksirajo iskalniki, lahko tudi agregati. Sam bi imel glede tega bolj radikalen pristop in mnenja uporabnikov pri dodajanju novih virov ne bi prav veliko upošteval. ÄŒe ne želijo svojega vira v agregatu, naj sistemu onemogočijo branje le-tega.

18. februar 2008 - andrej

[...] je včeraj pisal o novem agregatu blogov, oz. RSS zapisov. In danes je ugledal luč sveta agregat Che - spletna revolucija in se [...]

Zanimiva zadeva, bom napisal objavo glede tega …

19. februar 2008 - Matej T

Da pohvalim che.si… Enostavno in pregledno.

Evo še en predlog. Zraven vsakega posta dodaš gumb v smislu “i like it”, ki podaljša čas posta na prvi strani za določen čas - recimo 5 ali 10 min (pravi čas bi blo treba še ugotoviti). Programersko shraniš čas objave posta v drugo polje in sortiraš po tem polju, ki ga tudi podaljšuješ.

20. februar 2008 - m

@m: Sem dodal zvezdico .. je bolj v “che” stilu :-)
Sistem sem optimiziral, zdej bom pa probal v neko spodobno strukturo spravit še portal.

23. februar 2008 - andrej

[...] idejo, o kateri sem pisal v prejšnjem zapisu, sem realiziral. Od ideje do izvedbe ni minilo prav dolgo -, razvil sem dober sistem, ki skrbi za [...]

24. februar 2008 - Delavec

Komentiraj