3.2 A számítógép az információterjesztés szolgálatában
Mint a bevezetőben már szó esett róla, az új információk számának növekedése logisztikus függvénnyel jellemezhető. Tekintve, hogy új információ csak úgy jöhet létre, ha az ismeret valamilyen kommunikációs csatornán keresztül eljut a befogadóhoz, nyilvánvaló, hogy az információáramlásnak is hatványozott mértékben kell bővülnie, ellenkező esetben a csatorna szűk keresztmetszete akadályozza a tudományos fejlődést. A tudományos tájékoztatás ilyen értelemben jó segédeszközre lelt a számítástechnikában és a távközlésben, amely jelentősen megnövelte a feldolgozható és közvetíthető információk mennyiségét. A számítógépet a gyakorlatilag korlátlan tárolókapacitás, rendkívül gyors műveleti sebesség és a nagy pontosság különösen alkalmassá teszi a nagy adathalmazok feldolgozására, a bonyolult tudományos számításokra és a működő rendszerek szabályozására. Az könyvtári feladatok ellátására igen alkalmas a sok adat tárolása és ezek rövid elérési ideje miatt, de a számítógépekhez kapcsolt távadatátviteli vonalakkal a térbeli korlátok áthidalása szintén döntő jelentőségű volt az informatikában tapasztalható számítástechnikai áttörésben.
A ma ismert és elterjedt elektronikus számítógépek két összetevőből, a hardver-ből és a szoftverből állnak. A hardver három fő része:
- a központi egység, amely az utasításoknak megfelelően vezérli a belső adat-forgalmat, végrehajtja az aritmetikai és logikai műveleteket;
- a központi vagy operatív memória tárolja a programokat és az adatokat;
- az input-output (I/O) egység biztosítja a be- és kimenő adatok konvertálását a gép, illetve az ember számára értelmezhető formára. A legtöbb számítógéphez még különböző kiegészítő berendezések, háttértárak, nyomtatók és más perifériák is tartoznak. A szoftver az a program, illetve programrendszer, amellyel a gép működik: ezt két nagy csoportra oszthatjuk. A rendszerszoftver (más néven alapszoftver) - amely magába foglalja az operációs rendszer(eke)t, a fordító, betöltő-, kezelőprogramokat stb. - a számítógép szerves “tartozéka”, nélküle működésképtelen lenne. Az alkalmazói szoftvert a géptípusnak megfelelően, a konkrét igénybevételt figyelembe véve írják, illetve használják.
3.21 A számítógépek fejlődésének rövid története
Fél évszázada sincs még, amikor 1945 decemberében a pennsylvaniai egyetemen üzembe helyezték az első elektronikus elven működő számítógépet, az ENIAC-ot. Azóta a számítástechnika önálló ágazattá vált, amelynek a fejlődése sok más iparágéhoz képest is rendkívül gyors és látványos volt. A számítástechnika magába foglalja a technikai eszközök, a hardver gyártását és a számítógépek működtetéséhez szükséges programok, a szoftver készítését.
A számítástechnika rendkívüli fejlődése nem egy lineáris vonal mentén ment végbe, hanem egymástól meglehetősen jól elhatárolható szakaszokra osztható, mind a hardvert, mind a szoftvert, sőt még e két alkotóelemhez szorosan kötődő alkalmazási rendszereket, illetve rendszertervezési módszereket illetően is. A technikai és szellemi alapok olyannyira eltérőek, hogy számítógép-generációkról szokás beszélni. A durván egy-egy évtizedet felölelő egyes szakaszok a gyakorlatban természetesen nem úgy következnek egymás után, hogy az egyik véget érésével kezdődik a másik; az egyes számítógép generációk évekig élnek egymás mellett. Ennél is lassabban követik a technológiai fejlődést az alkalmazói rendszerek, illetve a rendszertervezési módszerek, és az egyes országok helyzete is nagymértékben eltérő. A következő rövid történeti áttekintésben természetesen csak az legszámottevőbb fejlesztések bemutatására szorítkozhatom.
Az első generáció úttörője, az ENIAC 18 ezer elektroncsőből állt. A 30 tonnás berendezés programjait - memória hiányában - huzalozással tárolták. Ennek az elektroncsövekből álló gépnek inkább csak a méreteit szokták említeni, holott alkalmazásának korlátozott mivolta elsősorban nem ebben rejlett. Tekintve, hogy egy elektroncső átlagos élettartama kb. 2 000 óra, könnyű kiszámolni, hogy a 18 000 elektroncső közül minimum 6-7 percenként legalább egy elromlott, és ez gyakorlatilag lehetetlenné tette a normális működést. Részben emiatt, de főleg a vezérlő program huzalos tárolása miatt az első generációs gépek csak alkalmi feladatok elvégzésére voltak alkalmasak. Műveleti kapacitásuk nagyjából a mai asztali kalkulátorénak felel meg. Az alkalmazásra az eszközfüggőség, a rendszerszervezési módszerekre a feladatszemlélet volt a jellemző. Az egyes gépek egymástól függetlenül, mindenféle szabványosítás nélkül épültek.
Az ENIAC üzembe állításával egy időben Neumann János és munkacsoportja már a számítógépek új modelljein dolgozott. Az akkor kitalált megoldások mind a mai napig meghatározzák a számítógépek fejlesztését. Eredményeik oly jelentősek, hogy az általuk rögzített elvek alapján működő gépeket Neumann-féle architektúrának nevezik. A Neumann János által kitalált, a második-negyedik generáción végigvonuló gondolat a tárolt program mellett a sorrendi vezérlés. Az első generációhoz képest az igazi áttörést a tárolt programos vezérlés jelentette, a sorrendi vezérlést tulajdonképpen már az ENIAC-nál is alkalmazták. A Neumann-féle gépek azonos módon kezelik és ugyanazon a helyen tárolják a programot, amely megadja a lépések sorrendjét és az adott lépéshez szükséges adatokat. Az utasítások a memóriából sorban a központi feldolgozó egységbe jutnak, itt dekódolódnak, majd működésbe lépnek: előhívják a memóriából az adatokat, elvégzik a számításokat stb. Az egyes lépések egymás után, ciklikusan szerveződnek és így ismétlődnek.
A második számítógép generáció indulása 1956-1959 közöttre tehető. Technikai előrelépést a tranzisztor, szellemi fejlődést a folyamat-feldolgozásra való alkalmasság, a magasszintű programnyelvek és az eszközfüggetlen módszerek jelentettek. Tipikusan jellemző volt az algoritmusok, folyamatábrák készítése, a logikai szabályozottság. Mind a gépek, mind a működtetés nagyon drága volt, ezért a folyamatos üzemelés érdekében ún. kötegelt (batch) üzemmódban dolgoztak a számítóközpontok. A gépek gyártóinak és felhasználóinak bővülésével egyes összetevők esetében már megkezdődött a szabványosítás is.
Az integrált áramkörökből épülő harmadik generációs számítógépek prototípusai 1964-67 között készültek el. A szoftverkészítésben a rendszerszemlélet vált uralkodóvá, a gépek működését az egyes típusokhoz készülő operációs rendszerek szabályozták. Tipikus alkalmazási területe a CAD (Computer Aided Design), amely az egész harmadik generációs szemléletet jól tükrözi: a gép “buta, de ügyes”, arra jó, hogy megkönnyítse és meggyorsítsa az ember munkáját. A számítóközpontokban még mindig az operátor az “úr”, ő indítja el a gépet a job-control utasításokkal, illetve a programozók kérésére kiveszi a raktárból és elindítja a kért fájlokat.
Az integrált áramkörök bonyolultsága igen gyors műveleti sebességet tesz lehetővé - bár az is igaz, hogy az 500 000 művelet/sec nem a tényleges outputokra vonatkozik, mert az egyre bonyolultabb operációs rendszer nagyon sok belső, rezsi-feladatot végez el. Jelentős fejlődést hozott az ember-gép kapcsolatban az ún. interaktív (más néven párbeszédes) üzemmód, amely egy-egy utasítás végrehajtása (tkp. “válaszadás”) után lehetővé teszi a felhasználó számára, hogy beavatkozzon a feldolgozás menetébe. A harmadik generációs korszakra jellemző a nagymértékű szabványosítás: az integrált áramköröktől az operációs rendszerekig gyakorlatilag valamennyi “építőelemre” érvényes előírások vannak, amelyek nemcsak a hardver, de a szoftver tekintetében is eszközfüggetlen alkalmazást tesznek lehetővé. Ehhez a generációhoz tartozik egy jelentős vívmány, a távadatfeldolgozás technológiája is, amely a nagy rendszerek interaktív lekérdezésére és/vagy felújítására is módot ad, egyidejűleg több felhasználó számára és akár kontinensnyi távolságból is.
A nagy integráltságú (LSI = Large-Scale Integration) szilícium félvezető lapkán (chipen) több ezer vagy akár több tízezer áramköri elemet kapcsolnak össze: ezekből épülnek napjainkban a negyedik generációs számítógépek. A technológia itt nem tér el gyökeresen az előzőektől, ezért a jellemző tulajdonságok inkább a szoftver tekintetében hoznak merőben újat. A hardver eszközök méreteikben egyre miniatürizálódnak, ugyanakkor mind nagyobb tárkapacitás és óriási gyorsaság jellemző rájuk, az egyes interfészek, perifériák pedig egyre inkább és egyre jobb minőségben képesek a grafikus ábrázolásra, illetőleg az eddigiektől eltérő kódolású input adatok (pl. beszéd) fogadására. A negyedik generációs számítógépek már alkalmasak ún. szakértő rendszerek üzemeltetésére vagy a robottechnika vezérlésére is. A korábbi generációktól eltérően már nem formális, hanem heurisztikus logika alapján dolgoznak - ennek következtében már nem csak teljesen jó információkból tudnak helyes következtetéseket levonni. Az emberi agy működését szimulálják, tudnak “hasraütésszerűen” dönteni: például egy optimalizálási feladat során a lehetséges közbenső megoldások közül kiválasztják a célnak megfelelőt és abba az irányba viszik tovább a döntést. A szakértő rendszerekhez kapcsolódva már nem adat-, hanem tudásbázist hoznak létre, amelynek felépítése révén bizonyos logikai ítéleteket is tudnak hozni.130 (A heurisztikával és a szakértő rendszerekkel kicsit részletesebben a Mesterséges intelligencia című fejezetben foglalkozom.)
Ma a számítógép-fejlesztés két irányba halad. Az egyik út fő motivációja az egy műveletre eső fajlagos költség csökkentése, amelyet a műveleti sebesség növelésével, a mind nagyobb és gyorsabb ún. szuperszámítógépekkel érnek el. Ezek az óriásgépek a klasszikus számítási feladatok megoldására, illetve az adatbázisok szolgáltatására kiválóan alkalmasak. A technológiai fejlesztés másik vonulata az ötödik generációs gépek felé halad, amelyek megjelenését a 80-as évek közepén már 1990-re várták. Ezek a berendezések újabb nagy előrelépést hoznak majd a számítástechnikában, szakítani fognak a sorrendi vezérléssel, a lineáris adatfeldolgozással és rendszerszinten valósítják meg a valódi párhuzamos feldolgozást is. A hardver az igen nagy integráltságú (VLSI = Very Large-Scale Integration) technológiára épül majd, amelyet nemcsak a százezres nagyságrend (ti. több mint 100 000 logikai műveletet, kaput sűrítenek egyetlen chipbe) jellemez, hanem az is, hogy ezeket a chipeket rendkívüli bonyolultságuk miatt már nem emberi, hanem VLSI CAD technológiával tervezik. Az ötödik generációs számítógépek az ember-gép közötti kapcsolatot biztosító interfészek terén is új megközelítést jelentenek: nem kell már majd ismerni a gép működési elvét ahhoz, hogy kommunikálni lehessen vele (pl. ha egy információra van szükség, nem kell tudni, illetve előzetesen leírni, hogyan működik az információkeresési eljárás). A kommunikációs technológia beépülése központi kérdés lesz, igen széleskörű hálózatok kiépülése várható. Az ötödik generációs számítógépek alkalmasak lesznek a mesterséges intelligencia témakörébe tartozó feladatok megoldására, így többek között a mintafelismerésre, a gépi fordításra stb.131
3.22 Online információterjesztés
A harmadik generációs számítógépek működésének az információ megszervezésében és hozzáférhetővé tételében a korábbi módszereket kiváltó formája az online információterjesztés és -keresés. Ennek célja a “rögzített tudás hasznának növelése”, amelyet felhasználóbarát módon, interaktív üzemmódban ér el. Az online rendszerben a keresőkérdést természetes nyelven lehet megfogalmazni és ugyancsak közvetlenül értelmezhető formában kapja meg a kérdező a választ. Az online keresés azonban “sokkal több, mint a kézi keresés meggyorsítása” - más keresési stratégiát, kérdezési technikát és értékelési módszert kíván meg, mint a hagyományos katalógusokban, segédletekben való tájékozódás. R. Summit véleménye szerint: “Ha valaki nem tudja megtalálni, amire szüksége van, nem is tudja elolvasni.”132 - vagyis (némi túlzással) a számítógépes információkereső rendszerek használatának készsége mára az írni-olvasni tudás képességével egyenrangúvá vált.
A mai online keresési technológia - oly sok máshoz hasonlóan - az amerikai űrprogram mellékterméke. Az 50-es évek végén a szovjetekkel folytatott erőltetett versengésben az amerikai űrkutatási hivatalnál, a NASA-nál mintegy 200 000 kutatási jelentés gyűlt össze. Az ezekben való tájékozódás rendkívül fontos volt, ezért egy IBM 1401 típusú számítógép segítségével mágnesszalagos szekvenciális keresőrendszert dolgoztak ki, amely batch üzemben (második generációs gépről volt szó!) 22 óra alatt tudta “átnézni” az állományt. Summit a fejlesztés motivációjaként a lassúság mellett a bizonytalanságot is megemlíti: a kérdésben a tárolt információhoz képest egész kismértékű eltérés is téves találatokat hozott, és mert a keresést menet közben már nem lehetett módosítani, adott esetben az egész procedúrát meg kellett ismételni. A Lockheed cég 1964-ben állította üzembe a harmadik generációs számítógépek prototípusának tekintett IBM 360/30 berendezést, amelyen kifejlesztettek az eddigiektől eltérő felépítésű információkereső rendszert, a DIALOG-ot. Az online üzemmódban 4-5 perc alatt végezték el az addig 22 órát igénybevevő keresést.
A mai legnagyobb online információszolgáltató, az 1972 óta üzleti alapon álló DIALOG Information Retrieval System 1989 végén több mint 330 adatbázis 190 millió tételét tette hozzáférhetővé 97 ország mintegy 100 ezer, önálló jelszóval rendelkező felhasználója/közvetítője számára. Az adatbázisok több mint 10 ezer szakfolyóirat közleményeiről, 1 millió nemzetközi és 10 millió nemzeti cég adatairól, 14 millió szabadalomról, 8,75 millió vegyületről tájékoztatnak. Új keletű szolgáltatásként 800 folyóirat, könyv, konferenciaanyag stb. teljes szövegét is lehet olvasni. Az eddig kizárólag alfanumerikus adatokat közlő adatbázisok mellett 1988-tól a grafikus ábrázolás is megjelent: a TRADEMARKSCAN az USA-ban regisztrált védjegyek grafikus ábráit is tartalmazza. A képi információk online szolgáltatásába másodikként a HEILBRON adatbázis lépett be, ez 1989-től kezdve közöl kémiai ábrákat.133
Az online szolgáltatások fejlesztése több irányból is kap inspirációt, illetve támogatást. Technikailag új minőséget eredményez az integrált szolgáltatású digitális hálózat (ISDN = Integrated Services Digital Networks) kiépítése, amely a korai 300, majd a jelenleg Európában átlagosnak tekinthető 9 600 bit/sec gyorsasághoz képest 64 000 baudos sebességgel, zavarmentesen továbbítja az információkat. (Summit hasonlata szerint az ISDN a régi telefonvonalas hálózathoz úgy viszonyul, mint egy távadatfeldolgozású, időosztásos számítógép a számolótáblához.) Az ISDN-t egyenesen a “kommunikációs álmok megvalósulásának” tartják, melynek következtében megszűnnek a modemek és velük együtt a zajos telefonvonalak is. Az új távadatfeldolgozó rendszer azonban nemcsak jóval gyorsabb, de olcsóbb is lesz, így a jelenleginél sokkal több teljes szövegű adatbázis szolgáltatása válik lehetővé.
A forrásdokumentumok tárolása az eddigi informatív vagy jeladó tájékoztatás helyett újabb jelentős előrelépést hoz az információközvetítés terén. Ha az olvasó a keresés során megtalálja az őt érdeklő témát, nem kell a primer dokumentumok gyűjteményéhez (a könyvtárhoz vagy más dokumentum-szolgáltató céghez) fordulnia a kérésével és várnia az eredeti dokumentumra, hanem azonnal hozzájut a tartalmi információkhoz is. A forrásdokumentumok online közreadása úgy is elképzelhető, hogy retrospektív módon, megfelelő optikai leolvasó eljárásokkal beolvasnak meglévő szövegeket, de úgy is, hogy az új publikációkat számítógép közbeiktatásával készítik el és rögtön tárolják is a leírtakat.
Az online szolgáltatások felfutását segíti a személyi számítógépek óriási mértékű elterjedése is. Miközben áruk erősen lefelé, kapacitásuk jelentősen fölfelé ível, jó minőségű interfészek és perifériák is megjelentek a piacon. A nagyfelbontású színes megjelenítővel, nyitott operációs rendszerrel és teljes képoldalt másoló nyomtatóval forgalomba kerülő konfigurációk egy újabb álom valóra válását ígérik: a hivatásos információközvetítők mellé belép a közvetlen felhasználók népes tábora. Mindemellett az online hálózathoz való közvetlen csatlakozást olyan új szoftverek is segítik, mint a DIALOGLINK, amely a személyi számítógépekhez kapcsolódó távközlési modult és a programcsomagot is tartalmazza.134
Az online lekérdezés hatásfokát nemcsak a technikai feltételek javításával, de szoftverfejlesztésekkel is igyekeznek növelni. Ezek közül elsőként említésre méltó a már működő közös parancsnyelv, a CCL (Common Command Language) kidolgozása, amely a felhasználót mentesíti az alól, hogy ismerje a kérdéses adatbázis nyelvezetét.
Hazánkban 1988 óta működik az az országos Információs Infrastruktúra Fejlesztési (IIF) telekommunikációs hálózat, amelyen keresztül számos magyar adatbázist szolgáltatnak online üzemmódban. Az IIF hálózatot úgy tervezték és alakították ki, hogy ezen keresztül az összes nagy európai és tengerentúli online szolgáltató elérhető legyen. A hazai telekommunikációs rendszer az adatbázis-lekérdezésen túl számos egyéb szolgáltatást nyújt, így többek közt elektronikus levelezőrendszert és faliújságot üzemeltet, fájl-transzfert biztosít stb. Az IIF felépítésének egyik érdekes sajátossága, hogy van egy központi szolgáltató host számítógép - mégpedig a Magyar Tudományos Akadémia Számítástechnikai Kutatóintézetében (MTA SZTAKI) -, amely számos adatbázis online elérését teszi lehetővé, de emellett jó néhány IIF-tagintézmény a saját számítógépén biztosítja az általa épített adatbázis(ok) elérését. Jellemző példa a kétféle megoldásra: az Országos Széchényi Könyvtár a nemzeti bibliográfiai rekordokat tartalmazó NEKTÁR rendszert a saját gépén, a külföldi folyóiratok központi katalógusát, a Nemzeti Periodika Adatbázist pedig a SZTAKI-ban lévő számítógépen teszi hozzáférhetővé.
Az IIF hálózat felépítéséből adódóan a központi számítógépen lévő összes adatbázist egyetlen szoftver - korábban a CDS/ISIS, 1992-től pedig a BRS/Search - adatbázis-kezelővel, az egyes adatbázis-építők viszont saját szoftvereikkel - így például a Széchényi Könyvtár a NEKTÁR-t a DOBIS/LIBIS-szel - szolgáltatják.135 Ma még hazánkban az online elérésű adatbázisok túlnyomó többsége bibliográfiai jellegű - köztük az előzőekben említett NEKTÁR és NPA -, de újabban készülnek faktografikusak is; mint például a Ki kicsoda? adatbázis, amely szintén az IIF hálózaton keresztül érhető el.
Az online szolgáltatások mellett, de gyakran ezektől teljesen függetlenül is használnak távmásoló berendezéseket. Működésük kissé leegyszerűsítve a következő: a telefonvonalhoz vagy ahhoz hasonló más kommunikációs csatornához kapcsolt berendezés a másolandó dokumentum egy-egy lapját fényérzékeny elektronikus készülékkel letapogatja, megkülönböztetve a papír különböző fedettségű területeit. A gép ezeket a jeleket elektronikus impulzusokká (bitekké) kódolja és ezeket a kódokat a vonalon (csatornán) továbbítja. A fogadó félnél is működik egy hasonló berendezés, amelyet a kapott kódok vezérelnek és így pontról-pontra rekonstruálja a vonalon érkező “képet” (kézzel vagy géppel írt szöveget, ábrát, nyomtatott dokumentum-részletet stb.). Azokat a berendezéseket, amelyek bizonyos tűréshatárokon belül az eredetivel (közel) azonos minőség reprodukálására képesek, telefakszimile vagy egyszerűsítve telefax készüléknek nevezik. Felbontóképességük általában 200 x 200 pont/inch (de ismeretesek 400 x 400-asok is), átviteli sebességük a minőségtől függően 1 oldal/perc-től (4 800 baud) 1 oldal/sec-ig (56 000 bit/sec) terjed. A könyvtári területen a távmásolásnak a kölcsönzési kérések, illetve dokumentummásolatok gyors továbbításában van nagy jelentősége.136 (Talán nem is kell külön hangsúlyozni, hogy a telefax készülékek képek továbbítására is alkalmasak, bár a jelenleg elterjedt 200 x 200-as felbontással inkább csak egyszerűbb vonalas ábrák reprodukálhatók elfogadható minőségben.) Az adatbázisokhoz kapcsolt elektronikus postai és távmásoló szolgáltatások mind arra utalnak, hogy az online információkeresés a közeljövőben is az információs ipar egyik dinamikusan fejlődő ágazata lesz.
3.23 Mesterséges intelligencia
Az első fejezetben nagy vonalakban ismertetett neurológiai kutatások eredményeit jól hasznosítja a mesterséges intelligencia (artificial intelligence - AI). E dinamikusan fejlődő új terület célja, hogy alkalmassá tegye a számítógépet az emberi intelligenciával megoldható feladatok ellátására. A mesterséges intelligencia - az informatikához hasonlóan - egyrészt tudomány, másrészt technológia. Ha a megismerés újfajta szemléletének tekintjük, a természettudományok közé sorolható, de tekinthetjük műszaki tudománynak is, amelynek feladata egy adott működés minél jobb minőségű létrehozása.137 A mesterséges intelligenciával kapcsolatos első kísérletek csak az 50-es évek végén kezdődtek; de 2-3 évtized alatt önálló alkalmazási területei alakultak ki: tudástechnológia és -ábrázolás, logikai elméletek alkalmazása, probléma-keresés és -megoldás, természetes és programnyelvek feldolgozása, tételbizonyítás, alakfelismerés, játékelmélet, szakértő rendszerek, robotika stb.
A mesterséges intelligencia kulcsproblémájának a tudás ábrázolását tartják. A tudás kétféle lehet:
- tényszerű: adatok, tények, know-what;
- eljárási tudás: folyamat, know-how.
A számítástechnikában eddig megszokott adatbankok és az AI tudásbankok közötti átmenet folyamatos. A tudásábrázoló rendszerek J. Kohlas szerint alaki és levezető rendszerek lehetnek. Az alaki rendszerek két nagy csoportja a kinyilatkoztató és az eljárási rendszerek.138
A problémára különösen jellemző, a tényszerű tudást leíró kinyilatkoztató rendszerekben a tudás kiegészítését a problémától független általános levezető mechanizmusok teszik lehetővé. A rendszer - éppen a problémától való függetlensége révén - kevéssé hatékony. Ezzel szemben az eljárási rendszerek az adott problémamegoldó folyamattal kapcsolatos know-how-t gyűjtik össze és ezt használják fel. Az eljárási rendszerek a kérdéses problémát tekintve ugyan hatékonyak, viszont nem általánosíthatóak, velük csak a szóban forgó specifikus probléma megoldása alakítható ki. A két megközelítést kombináló rendszerek - nagyobb hatékonyságuk és általánosabb alkalmazhatóságuk révén - sikeresnek ígérkeznek. E szintézis kialakítására, a tény-szerű és az eljárási tudás összekapcsolására irányuló kutatásaiban Minsky bevezette a frame (keret) fogalmát. Frames-nek azokat az általános struktúrákat nevezte, amelyek a tudás ábrázolásának megszervezését és a kapcsolatok kialakítását szolgálják. A frame “állványként” vagy “keretként” szolgál, amelyben meghatározott helyekre (“csomópontokra”) elrendezhető az adott tárggyal kapcsolatos összes tényszerű vagy eljárási tudásanyag.
A levezető rendszerek elsősorban a logikai szabályokra építenek. Felhasználják a kijelentés- és állításlogika, illetve az elsőrendű logika szabályait. A levezető rendszerek a problémát a ha ... akkor típusú kifejezésekkel kódolják. A kijelentéslogika szerint a ha ... akkor egy kijelentés, az állításlogika szerint mondat is lehet. A kijelentéslogika igaz vagy hamis premisszára alapul. A problémát tantétel (teoréma) formájában fogalmazza meg, így a probléma-megoldás analógiája a teorémabizonyítás lesz. A levezető rendszerben a problémát egyrészt egy adatsor (pl. kijelentések halmaza), másrészt a cél (pl. egy másik kijelentés) határozza meg. Az alkalmazható levezetési szabályokat - amelyekben a ha rész egyezik az adatokkal - egy interpretátor keresi meg. Amennyiben a rendszer megtalálja ezt a levezetési szabályt, csatolja az adatok akkor részét, és addig keres, amíg már nincs több alkalmazható szabály és a cél megegyezik az adatokkal. Ez a megoldás a szakértő rendszerek kedvelt kiindulópontja.139
A szakértő rendszerek az emberi szakértelmet hivatottak reprezentálni, és így speciális szaktudást követelő feladatokat képesek megoldani. Tényszerű és eljárási tudást egyaránt tartalmaznak, mégpedig tények, szabályok és heurisztikák formájában. (A heurisztika minden olyan elv, szabály, következtetés, értékelés, amely egy bizonyos szituációban többnyire igen, de nem minden esetben működik.) A szakértő rendszerek két összetevője a tudásbázis és az általános következtető rendszer. A tudásbázis tartalmazza a tényeket, az eljárási rendszer a szabályokat és a heurisztikákat. Ez utóbbi rendszer értelmezi a kérdést és sorolja az alkalmazandó következtetési szabályokat. (A szakértő rendszer tudására egy konkrét példa: egy 1 500 szabályt tartalmazó, a bakteriális megbetegedéseket tárgyaló rendszer “tudása” egy átlagos orvos szintjének felel meg.)140
A szakértő rendszerek ígéretes lehetőséget jelentenek a könyvtári tevékenység valamennyi területe számára is. Eddig főleg a tájékoztató, referensz jellegű kérdések megválaszolására dolgoztak ki ilyen rendszereket. Fő előnyeik: az emlékezet, a következetesség és a tárgyilagosság - itt mutatkoznak meg igazán. Thompson azonban felhívja a figyelmet arra, hogy ugyanilyen haszonnal járna a katalogizálás, az osztályozás és az oktatás/kutatás terén is a szakértő rendszerek alkalmazása.141
A tudásábrázoláshoz szükséges adatbázis bonyolultan összetett, adatszerkezetét különböző listák és hierarchikusan strukturált jelképsorozatok alkotják. A mesterséges intelligencia számítógépes programjainak lényeges elemei a teorémabizonyítás, a mintakészítés és a rekurzió. Ez utóbbi egy algoritmus szerint ismétlődő lépésekből álló műveletsorozatot jelent; az eredmény egyben újabb műveletek kiindulópontja. Nagyon lényeges az ember és a gép közötti kommunikáció, ezt különböző eszközök és módszerek szolgálják (egér, nagyfelbontású grafika, ablaktechnika stb.). A mesterséges intelligencia klasszikus programnyelve a LISP, ezt McCarthy még 1960-ban fejlesztette ki. A List Processing listákat tartalmaz az adatokról és a procedúrákról (eljárásokról) is. Ez a programnyelv sok (talán túl sok) “nyelvjárásban” létezik, ezért most a “szabványos” formáját, a COMMON LISP-et igyekeznek elterjeszteni. A PROLOG újabb programnyelv, ez az állításlogika kijelentéseiből épül fel és inkább a tényszerű tudás deklarálására szolgál.142
Más célra dolgozták ki az ún. fogalomalkotó programokat, közülük Langley BACON programja néhány egyszerű fizikai-matematikai alapfogalom definíciójából indul ki. BACON “felfedezte” Kepler harmadik törvényét, illetve Snellius-Descartes, valamint Ohm és Kirchhoff törvényét. Lenat Automated Mathematics (AM) programja a kiinduló fogalom és formula alapján újabb formula generálása által matematikai fogalmak felfedezésére szolgál. A 115 szabályt tartalmazó program érdekesebb eredményei: meghatározta az egész számok fogalmát, megállapította a négy alapművelet és a prímszámok mibenlétét és “felfedezte” a számelmélet alaptételét, ti. hogy “minden szám egyértelműen előállítható prímszámok szorzataként”. Lenat AM-jét fejlesztette tovább az EURISKO program, amely tulajdonképpen “evolúciós” elven “bánik” a heurisztikákkal. Kiindulópontja az a megállapítás, hogy bizonyos heurisztikák nemcsak formulákkal, hanem a többi heurisztikával is dolgoznak, sajátos módszerével felülírja a kevésbé “életképes” heurisztikákat. A “programmutációk” ugyan már kevésbé voltak érthetőek, de az EURISKO kapcsán vetődött föl a kérdés: lehet, hogy az “igazi” gépi intelligencia emberi ésszel esetleg fölfoghatatlan? 143
A computer vision, pattern recognition, image processing kifejezések tulajdonképpen szinonimák: a mesterséges intelligencia egyik legfontosabb ágát, a számítógépes alakfelismerést jelentik. E tárgykör egyik legnagyobb problémája a tárgy és a háttér megkülönböztetése. Az erre a célra alkalmazott egyik módszer a szegmentálás (részekre bontás), amely az egyes elemek átkapcsolódásai, de főleg az árnyékvetés miatt igen nehéz. Egyik megoldásként a sztereo-leképezést alkalmazzák, melynek lényege, hogy a tárgyról két különböző helyzetből készítenek felvételt és ezeket elemzik először kettő, majd három dimenzióban. A kétdimenziós értékelésnél a területhatárok, a textúra és a fényintenzitás változásait mérik és ebből számítják ki az összes látható képpontot. A háromdimenziós elemzés során a felületek irányítottságáról szóló információkat gyűjtik. Egy másik eljárás szerint több kép összevetéséből mérik az ún. sztereoszkópikus mélységet. Van olyan kísérlet is, ahol a felületi irányítottságot a sztereoszkópikus mélységgel együtt mérik és ezt egészítik ki az intenzitás adatokkal. A háromdimenziós felületek vetületeinek számításából is érdekes módszer született: a térbeli modellt összevetik a háromdimenziós ábrázolással és kiszámítják, származhat-e a képen ábrázolt elrendezés a modell vetületeiből.
A számítógépes alakfelismerésre többféle eljárást dolgoztak ki: a jellegzetességek detektálását, a textúra analízist, a felületi irányítottság becslését, a képösszevetést, a szegmentálást, a tulajdonságmérést, a távolságbecslést, a modellel való összevetést stb.144 A szegmentálás egyik módja a képet elemeire bontja és tulajdonságaik alapján (szürke-szint mérése, helyi textúra mérőszámok, szín stb.) clusterálja a képelemeket. Ismeretes olyan szegmentálás is, amely nem a képelemeket, hanem területeket vizsgál. A split and merge (feldarabolás és egyesítés) nevű módszer a képet homogén területekből állítja össze. A modellel való összevetés talán a legnehezebb művelet, pedig ennek jó megoldása vezethetne a legjobb eredményre. Lényege, hogy a már ismert modellekhez (vö. Gregory vizuális mintáival) hasonlítja az alakzatot, és a hasonlóság fokából következtet a valóságos tárgyra. Az eljárásban hierarchikus modelleket, relációs struktúra-analízist, statisztikai következtetéseket stb. alkalmaznak.
A számítógépes alakfelismerés egyik speciális alkalmazási területe a karakter-felismerés, amelyet a könyvtárakban régi katalóguscédulák automatikus feldolgozására, olvasói nyilvántartásokra stb. alkalmaznak. A karakter-felismerési eljárások az előzőekben említettek közül összehasonlító, illetőleg statisztikai vagy strukturális módszereket követnek. A karakter-felismerés roppant egyszerű elvre épül: a jelek adott X halmazáról, amelynek elemei egyértelműen az X különböző osztályaiba sorolhatók, el kell dönteni, hogy az egyes jelek mely osztályba tartoznak. Egy osztály egy elemét egy karakter és annak formaváltozatai képviselik. A számítógépes algoritmus két irányból közelíti meg a problémát:
- egyrészt egy X-beli elemről el kell dönteni, melyik osztályba tartozik;
- másrészt egy jelről fel kell ismerni, ha nem X-beli elemről van szó.
Az információ feldolgozásához analóg-digitális átalakítókat, a digitalizált jelek értelmezésére pedig számítógépet használnak. A leolvasás többféle berendezéssel is megoldható, így tv-kamerával, lézeres letapogatással, CCD töltéscsatolt képbontóval. A CCD kamera felbontóképessége 300 pont/inch - ez azt jelenti, hogy egy A/4-es oldalról 1 Mbyte-nyi, tehát 1 millió bináris információt készít. Talán nem is kell külön hangsúlyozni, hogy a hagyományos cédulakatalógusok retrospektív feldolgozása milyen nagy jelentőségű. Megfelelő berendezésekkel és programokkal a MARC előírásoknak megfelelő rekordokat lehet előállítani, mégpedig a manuális feldolgozás költségeinek 10-50%-áért.145
A mesterséges intelligencia problémamegoldó eljárásainak a szekvenciális felépítésű számítógépek szoros határokat szabnak. A probléma terjedelmével a számítási műveletek száma exponenciálisan nő, ezért a kereteket a párhuzamos feldolgozási lehetőségek számának növelésével igyekeznek növelni. Ezt a kérdést ma csak az algoritmusok párhuzamossá tételével tudják megoldani, valódi párhuzamos algoritmusokat még nem sikerült kidolgozni (vö. párhuzamos processzorok az ötödik generációs számítógépeknél).
3.24 Optikai információtárolás
Az utóbbi néhány évben új információhordozó, az optikai lemez tört be minden eddiginél látványosabban a könyvtári-tájékoztatási szakterületre. Ezek a kiváló minőségű és hatalmas kapacitású lemezek hirtelen szó szerint is megfogható közelségbe hozták az eddig kissé elidegenedett, személytelenül misztikus adatbázisokat, de az optikai lemezeken váltak először a szövegekkel egyenrangúvá a képi információk is. Témánk szempontjából ennek az új médiumnak oly nagy a jelentősége, hogy kiemelten fogunk vele foglalkozni.
Az információközvetítés legújabb kori forradalma egy zseniálisan egyszerű elvre épül. Ha kellően kis szegmensekre bontjuk a feldolgozásra váró információ-halmazt, valamennyi eleméről megállapíthatunk egy adott kritérium szerint meglévő, illetve meg nem lévő tulajdonságot, amely egy adott logika szerint az igen vagy a nem egyértelmű megfeleltetése. Ez az ún. bináris elv vonul végig az egész számítástechnikán, amelynek kódolási alapelve a kettes számrendszerre épül, és ugyanezt a princípiumot érvényesíti az információrögzítésben is. A széles körben ismert mágneses adathordozókon ezt a bevonat apró részecskéinek mágneses volta reprezentálja: egy szegmens mágneses vagy nem mágneses állapota az 1 illetve a 0 (igen - nem) állapotnak felel meg. Ugyanezt képviseli a dipólmomentumok irányának a különbsége is; ez az irány a mágneses erőtér megváltoztatásával megfordítható. Ezen az elven alapulnak a mindennapi életben elterjedt magnetofonszalagok vagy az egyre ismertebb mikroszámítógépek lemezei, de a nagyszámítógépek mágnesszalagjai és -lemezei stb. is. A mágnesezhetőség azonban önmagában hordozza alkalmazási korlátját is: a mágneses kölcsönhatás miatt nem lehet egy adott érték alatt képezni a szegmenseket; az olvasási sebesség pedig nem lehet gyorsabb annál az időtartamnál, amelyet a mágnestekercsen átfolyó áram, illetve az irányváltás ideje meghatároz. A szöveges információk tárolására különösen jó, hatékony segédeszközt jelentenek a különböző mágneses adathordozók: a szalagok, lemezek, dobok stb. Az írásjeleket nagyon könnyű a bináris kódokkal kifejezni, a számítógépes feldolgozás alapegységét jelentő 1 byte hosszal például a latin betűs íráskészletet maradéktalanul le lehet kódolni. A mágneses hordozók kapacitása azonban a képek digitalizálásához már kevésnek bizonyult: amíg egy A/4-es szövegoldal tárolási igénye 1 000-1 500 byte, addig egy ugyanakkora színes kép digitalizált változata a felbontástól függően 400 000 - 4 000 000 byte helyet igényel.146
A kutatók új módszereket és eljárásokat kerestek, így fordult az érdeklődés az optikai technológiák felé. Az első optikai képdigitalizáló és tároló rendszerek a 80-as évek elején jelentek meg Japánban, majd röviddel ezután az Egyesült Államokban.
Az optikai tárolás az információrögzítésre a mágnesesség helyett a fényt használja, amelynek 10 mm hullámhossza lehetővé teszi, hogy két szomszédos bit között a távolság mikrométerekben legyen mérhető. A rendkívül kis tartományok fókuszálását a gyakorlatban megfelelő optikai rendszerrel és lézerfénnyel valósítják meg. A lézer olyan egyfrekvenciájú, monokromatikus elektromágneses sugárzás, amelynek egyáltalán nincs sávszélessége - ennek köszönhetően mentes minden differenciális diffrakciótól (szóródástól). A korszerű szabályozástechnikával a lézernyalábot olyan pontosan be lehet határolni, hogy az átvitel hűsége gyakorlatilag 100%-os, vesztesége pedig 0%-os.-6
Az optikai rögzítést eleinte zenei és filmfelvételekre használták. A kísérleteket a 70-es években kezdték az analóg jelek digitális jelekké oda- és visszaalakításával. Az első 12 inch átmérőjű optikai lemez 1978-ban jelent meg, kb. 1 órás videofelvétellel. 1983-ban került piacra az első 12 cm átmérőjű optikai lemez 75 percnyi, kiváló minőségű zenei felvétellel. Nem sokkal ezután kezdték információtárolásra is használni a lézerlemeznek is nevezett új optikai médiumot.
A mai optikai lemezek általában 3 anyagrétegből állnak: a legbelső kemény réteg biztosítja a fizikai szilárdságot, ezt borítja az információhordozó fényvisszaverő réteg, melyet kívülről védőbevonat óv a külső sérüléstől, szennyeződéstől. Információrögzítésre ma többnyire vékony tellurium-ötvözetet használnak, amelybe az adatbevitel előtt egyenletesen igen sekély, folyamatos barázdát vágnak. Az egyes hornyok távolsága 1,6 mm. Az információ felvitele kemény lézersugárral történik, amely a felületbe kis mélyedéseket, gödröket (piteket) éget. A 0 és az 1 biteket ezeknek a gödröknek a sík részbe való átmenetei hordozzák. A pitek mélysége 0,1 mm, szélessége 0,6 mm - ezzel a jelsűrűséggel négyzetmilliméterenként 1 millió bitet lehet tárolni. A leolvasás olyan lágy lézernyalábbal történik, amely már nem okoz felületi elváltozást, csak visszaverődik a mélyedésekről. A visszavert kiolvasó lézersugarat egy fotodióda érzékeli, amelynek felülete négy zónára oszlik. A barázdából visszavert fényt egy prizmához hasonló optikai hasáb ugyancsak négy részre osztja, ezek összevetésével biztosítja a szabályozórendszer, hogy a kiolvasó sugárnyaláb 0,1 mm pontossággal mindig a barázdában maradjon. A lemezek leolvasására két módszer terjedt el: ha a tárolási kapacitást a hozzáférési idő “rovására” kívánják növelni, állandó lineáris sebességgel, ha pedig gyorsabb hozzáférést akarnak biztosítani, állandó szögsebességgel forgatják a lemezeket.147
Az optikai lemezek lejátszásához speciális leolvasó készülék szükséges. Az információtárolásra használt lemezek speciális szoftverrel együtt kerülnek forgalomba, így ezeket a lejátszókat számítógéphez csatlakoztatva lehet működtetni. A háztartásokban használt lézer-audiolemezek (közhasznú néven kompakt lemezek) lejátszójában egy digitális-analóg konverter található, ha ehelyett megfelelő interfészt (csatlakozót) építenek be, ezek a lejátszók is csatlakoztathatók a számítógépekhez.
Az optikai lemez gyűjtőnév, amely több - és egyre több - típust foglal magába. Kategorizálásukban és elnevezésükben a szakirodalom nem egységes, a leggyakrabban a felhasználás lehetőségei szerint különböztetik meg az egyes típusokat. Az egyik csoportba azok a lemezek tartoznak, amelyeket a felhasználó készen kap, tartalmát megváltoztatni nem tudja, így az iparilag előállított kész lemezeket csak leolvasni lehet. Angol nevük rövidítése alapján OROM vagy ROM (Optical Read Only Memory) néven ismertek, közéjük video és lézer lemezeket is sorolnak. Jelentőségénél fogva ezzel a típussal külön is foglalkozom. A második csoportba a WORM (Write Once Read Many) néven ismert, a felhasználó által írt lemezek tartoznak. A tartalmat később már nem lehet megváltoztatni, ezért hívják egyszer írható, sokszor olvasható lemeznek; ezeket főleg archiválási célokra használják. A felhasználó által aktualizálható, tehát törölhető (erasable) lemezek alkotják a harmadik csoportot, ezek egyelőre még kevésbé terjedtek el, mint az előző két típusba tartozók, bár várhatóan mind nagyobb jelentőségre tesznek majd szert.
A különböző típusú optikai lemezek képesek különféle szöveget, numerikus adatokat, képeket (álló-, mozgókép, animáció), ábrákat, hangot külön-külön vagy együttesen, egy lemezre integrálva tárolni. Feltétlen előnyeik közé tartozik az információk magas színvonalú őrzése és reprodukálása, a rövid hozzáférési idő, a kompakt méret miatti kényelmes használat és a kiváló fizikai teherbírás. Mivel bármilyen típusú információ szolgáltatására képesek, széleskörű alkalmazhatóságukkal forradalmi utat nyitottak az ún. multimédia információ gyűjtésében és keresésében. A forgalmazott késztermékek természetesen nemcsak az eltérő típusú adatokat, de az eddig ismert legjobb, leghatékonyabb módszereket - így természetesen a közvetlen párbeszédes lekérdezési lehetőséget is - integrálják. Így jött létre egy új fogalom, az interaktív multimédia. A hipermédia kvázi-szinonimájaként terjedő fogalom magába foglalja azt a keresési módszert, amely az olvasót az emberi gondolkodást szimulálva, asszociatív, nem-hierarchikus, csapongó módon, szabadon hagyja böngészgetni a multimédia, tehát bármilyen típusú információk között. (A nem-szekvenciális keresést lehetővé tévő információbázisokról a 3.25 sz., Hipertext, hipermédia című fejezetben lesz szó.)
3.241 CD-ROM lemezes adatbázisok
Az egyes optikai lemezek más és más lehetőséget biztosítanak a multimédia információk tárolásához és kereséséhez. Közülük ma a legismertebb a CD-ROM (Compact Disk - Read Only Memory) rövidítéssel megnevezett kompakt lemez, amelyet - mint a nevéből látható - a felhasználó a rajta lévő adatokkal együtt, készen vásárol meg. A CD-ROM egy 12 cm átmérőjű, 17 gramm súlyú, 550-650 Megabyte kapacitású lézerlemez, amelynek első példányai 1986-ban kerültek kereskedelmi forgalomba. Elképesztő tempójú terjedését sok kedvező tényező együttes hatásának köszönheti. (Míg 1986-ban mindössze 48, addig 1993-ban már több mint 3600 CD-ROM-on forgalmazott adatbázist tartott számon a CD-ROM Directory) Ez a médium rendelkezik mindazokkal az előnyökkel, amelyekkel az optikai lemezek általában, tehát magas színvonalon képes a szöveges és képi információk rövid időn belüli szolgáltatására, használata kényelmes és biztonságos. Mindezeken felül a CD-ROM elterjedését segítette, hogy a könyvtárak és más hivatásos információközvetítőkből álló információs közösség a 80-as évek második felére már hozzászokott az online adatbázisok interaktív lekérdezéséhez, amelyet azonban még ma is gátol a távadatátviteli hálózat időnkénti üzemzavara, a vonalak telítettsége, illetve a szolgáltató számítóközpontok esetleges hibája. Ehhez járul még a költségtényező is, amely - a CD-ROM lemezek meglehetősen magas ára ellenére - kedvezőbb lehet, ha gyakran használják az adatbázist, sok találatot nyomtatnak ki stb.
A CD-ROM elterjedését nagyban segítette az a tény is, hogy már korai időszakától kezdve élvezte a szabványosítás előnyeit. Kezdetben a fizikai lemezszabványokban, majd a meghajtók és lejátszók kompatibilitásában egyeztek meg a gyártó cégek, mostanában pedig a szoftverre is kiterjedőben van az egységesítés. Két nagy előállító, a Wilson Company és a SilverPlatter például már több éve ugyanazt a menüt alkalmazza valamennyi termékénél.
Az 1983-ban nyilvánosságra hozott CD-ROM szabvány az adattárolás fizikai formátumát rögzíti ugyan, de nem írja elő, milyen típusú információ milyen módon tárolható a lemezen. Nem határozták meg az információk logikai elhelyezését, az információ kódolását, a fájl-szerkezetek jelölését stb., így néhány éven belül meglehetős anarchia állt elő: a szoftverfejlesztő cégek mind saját maguk által kifejlesztett formátumokat és rendszerprogramokat írtak a CD-ROM adatbázisokhoz. Ezt a helyzetet megszüntetendő, a 11 nagy CD-ROM előállító új formációt hozott létre, High Sierra Group néven; ennek keretében megállapodtak egy minden optikai rendszerhez illeszkedő tárolóeszköz, a CD-I (Compact Disk Interactive) kifejlesztésében és abban, hogy azonnal megkezdik a logikai fájl-szerkezet szabvány kidolgozását is.
A CD-I szabvány az adattárolás fizikai formátumán túlmenően pontosan meghatározza a szükséges hardver konfigurációt, szoftver oldalról pedig előírja az eltérő típusú információk megkülönböztetésének, kódolásának és dekódolásának, illetve a CD-I lemezen kialakított logikai fájl-szerkezet kezelésének módját. Az önmagukat betölteni képes CD-I lemezeket tömegfogyasztásra szánják, ezt biztosítja a felhasználóbarát keresőrendszer és a minden részletre kiterjedő kompatibilitás is.
Hiába oly nagy a CD-lemezek tárolókapacitása, száznál több színes kép digitális rögzítéséhez még így sem elegendő. A multimédia információk tárolására ezért egy új megoldást fejlesztettek ki a DVI (Digital Video Interactive) nevű kommunikációs eszközzel. A korábbi sűrűséget 160-ad részre tömörítő eljárás bármilyen típusú multimédia információ rögzítésére és tárolására alkalmas.
Visszatérve a mai CD-ROM adatbázisokhoz, megállapítható, hogy a ma kapható termékek túlnyomó többsége még mindig az online rendszerekhez hasonlít. Vannak tisztán referensz adatbázisok (pl. ERIC, Library literature), tartalmi kivonatokat is közlők (pl. LISA, Dissertation Abstracts), teljes szövegű adatbázisok (pl. Bookshelf) és kézikönyvek (pl. Grolier’s American academic encyclopaedia).148 Vizsgálták azt is, milyen adattárakat, adatbázisokat érdemes CD-ROM hordozón kiadni. A lemezek magas ára és viszonylag ritka aktualizálása miatt csak időtálló információkból álló, nagy adathalmazt érdemes erre a hordozóra vinni (az indexeléstől függően 200 000-350 000 oldal tartalma fér el egy 550 Mbyte-os lemezen). További könnyebbséget jelent, ha a meglévő adatbázis könnyen konvertálható, indexekkel bőven feltárt és jól szervezett információkból áll. Mindezek a jellemzők a kész adatbázisoknál, szótáraknál, enciklopédiáknál adottak, ezért is olyan “könnyű” ezeket CD-ROM-on (is) kiadni.
Mint az előzőekből látható, a CD-ROM-on - akárcsak a többi optikai lemezen - bármilyen digitális jel rögzíthető. Kapacitása miatt kiválóan alkalmas nagy bibliográfiai adatbázisok, terjedelmes szövegek és kisebb mennyiségű képi információ tárolására. 1993 végén abban a szerencsés helyzetben vagyunk, hogy mindhárom típusra már magyar példát is bemutathatunk. Mind a három ismertetett magyar CD-ROM az ARCANUM Bt. fejlesztése.
A bibliográfiai adatbázisok egyik jellemzője, hogy azonos struktúrájú rekordokból állnak. A rekordokból, illetve ezek mezőiből előzetesen megszerkesztik az indexeket a minél gyorsabb keresés támogatására. Az adatbázis készítője meghatározza, milyen indexek készüljenek, ezekbe a rekordok mely mezői kerüljenek, és a mező tartalma szavanként vagy kifejezésként legyen visszakereshető. Természetesen azt is előre el kell dönteni, az indexekben milyen karakterek legyenek, mi történjék az ékezetes betűkkel stb. A teljes szövegű (full-text) adatbázis - mint a nevéből is kitűnik - az ún. forrásértékű információt, tehát az eredeti szöveget teljes terjedelmében tárolja, ehhez járul a visszakeresést biztosító szoftver. A képeket is tartalmazó adatbázisban az információkat úgy tárolják, hogy egy speciális készülék az egyes oldalakat vízszintesen és függőlegesen apró szegmensekre bontva pontról pontra és sorról sorra letapogatva regisztrálja azt az adatot, hogy az adott képpont fehér-e vagy sem (vö. a 3.22 fejezetben leírtakkal). Tekintettel arra, hogy egy A/4-es oldalt igen sok szegmensre kell bontani ahhoz, hogy jó minőségű képet adjon vissza a rendszer, ennek az eljárásnak a tárolókapacitás-igénye rendkívül nagy - annak ellenére, hogy speciális tömörítő eljárással dolgoznak. (Összehasonlításul: egy 20 000 bibliográfiai rekordot tartalmazó adatbázis “terjedelme” mindössze 20-25 MB, 3 000 fekete-fehér fakszimile oldalé pedig már 150 MB.)
A bibliográfiai típusú CD-ROM-ra jó példa az Országos Széchényi Könyvtár első lézerlemezes adatbázisa, a Nemzeti Periodika Adatbázis (NPA). A közel 30 000 bibliográfiai, 800 000 állományi és 1 000 könyvtári rekordot tartalmazó adatbázis (amely 1988 óta online üzemmódban is elérhető az IIF hálózaton keresztül) 1981-től kezdődően tartalmazza a hazai könyvtárakban meglévő külföldi időszaki kiadványok bibliográfiai adatait és azok lelőhelyeit. A tartalmi feltárást egy tezauruszból és osztályozási jelzetből álló rendszer, az Osztaurusz biztosítja. Számos szolgáltatás mellett a lemezen megtalálhatók a lelőhely-könyvtárak legfontosabb adatai, az egyes országok kódjai, az országkódok feloldása stb. Az adatbázis használatát többféle megjelenítési formátum segíti, a magyar nyelvűn kívül angol nyelvű verzió is készült. A CD-ROM-hoz felhasználói kézikönyv és kétnyelvű referenciakártya is tartozik.149
A teljes szövegű adatbázisra példa a Biblia lézerlemezes kiadása. A Károli Gáspár szövege alapján készült CD-ROM 1992-ben jelent meg. Az adatbázis tartalma itt természetesen nem különálló rekordokban található, ezért itt a keresés is másképp folyik. A Biblia adatbázisban konkrét szóra, karakter- vagy szóláncra lehet keresni, megadhatjuk azt is, hogy egy kifejezésben a szavak egymáshoz viszonyítva milyen sorrendben álljanak. Háromféle helyettesítő karakter biztosítja a különféle írásmódú szavak biztos megtalálását: balról, jobbról, középről lehet 0 vagy 1, pontosan 1, illetve n számú karaktert helyettesíteni. Az adatbázis erőssége a teljes konkordancia feldolgozása.
Harmadik példánk a grafikus anyagot és a szöveget fakszimileként tároló MSZHIR CD-ROM, amely az összes magyar szabvány bibliográfiai adatait és grafikus képét tartalmazza. Az 1993-ban megjelent első lézerlemezen mintegy 20 000 bibliográfiai rekord és kb. 500 szabvány 3 000 oldalnyi anyaga található meg teljes terjedelemben. A keresés a bibliográfiai adatok alapján történik, a kiválasztott szabványt funkcióbillentyűvel lehet megjeleníteni. A fakszimile oldalakat lehet lapozni, kicsinyíteni, nagyítani, nyomtatni stb. A lézernyomtatón kinyomtatott oldalak minősége az eredeti szabványéval megegyezik - mint ahogy ez a 12. és 13. számú ábrákon a következő oldalakon látható.
|