วันอาทิตย์ที่ 12 กันยายน พ.ศ. 2553

การสืบค้นสารสนเทศ

ปัจจุบันมีข้อมูลจำนวนมากเผยแพร่อยู่ในอินเทอร์เน็ต มีทั้งข้อมูลเชิงสารคดีและบันเทิงคดี เช่น การรายงานข่าวประจำวัน ข้อมูลอันดับหนัง อันดับเพลงฮิต สถานที่ท่องเที่ยวที่น่าสนใจ วารสารอิเล็กทรอนิกส์ที่ให้บริการบนเว็บ การประกาศโฆษณาขายของบนอินเทอร์เน็ต ซึ่งมีการคาดการณ์กันว่ามีจำนวนเว็บไซต์เกิดใหม่ในแต่ละวันมีจำนวนเป็นล้านเว็บไซต์ต่อวัน


การค้นหาข้อมูลที่ต้องการบนอินเทอร์เน็ต จึงเป็นเรื่องที่ค่อนข้างยุ่งยาก

ดังนั้น ผู้ใช้งานอินเทอร์เน็ตจึงควรมีความรู้เกี่ยวกับเทคนิคการค้นหาข้อมูลบนอินเทอร์เน็ตอย่างคร่าวๆ

โดยใช้บริการจากเว็บไซต์ที่ให้บริการเครื่องมือช่วยค้นหาข้อมูลบนอินเทอร์เน็ต

เครื่องมือช่วยค้นหาข้อมูลบนอินเทอร์เน็ตมี 5 ประเภทใหญ่ๆ คือ (Bradley, 2002)

1. Free text Search Engines

2. Directory Search Engines

3. Meta Search Engines

4. Natural-language Search Engines

5. Resource or Site-specific Search Engines

  ข้อพึงตระหนัก

สารสนเทศหรือข้อมูลที่สืบค้นได้จากเว็บที่ให้บริการสืบค้นสารสนเทศ มีวิธีการจัดทำ 2 แบบหลักๆ คือ

โดยโปรแกรมคอมพิวเตอร์เป็นผู้จัดทำ (Crawler-based search engines) และ

โดยมนุษย์เป็นผู้จัดทำ (Human-powered directories)

ผลการสืบค้นที่ได้คือข้อมูลที่มาจากฐานข้อมูลของเว็บไซต์ที่ให้บริการ ไม่ใช่ข้อมูลปัจจุบันจากเว็บต่างๆ แบบ Online (เว็บไซต์จริงอาจการเปลี่ยนแปลงข้อมูล)

โดย Search Engine จะทำการสำรวจเอกสารเว็บแล้วนำมารวบรวมไว้ในฐานข้อมูลของตน

ดังนั้น ผลการค้นที่ได้จากแต่ละเว็บไซต์ที่บริการย่อมจะต่างกันด้วย ขึ้นอยู่กับ

ขนาดของฐานข้อมูล (พื้นที่ฮาร์ดดิสก์)

ความถี่ในการปรับปรุงข้อมูล

สามารถของโปรแกรมการค้น

การกำหนดดรรชนีและการจัดกลุ่มข้อมูล

จึงควรสืบค้นสารสนเทศมากกว่าหนึ่งเว็บไซต์ และมากกว่าหนึ่งช่วงเวลา

วิธีการทำงานของ Search Engine

โดยทั่วไปเว็บไซต์ Search engines มีกระบวนการทำงาน (Sullivan, 2001) แบ่งออกเป็น 3 ขั้นตอน คือ
โปรแกรมรวบรวมเอกสารเว็บ (spider หรือ crawler) สำรวจและอ่านหน้าเว็บจากโดเมนต่างๆ และหากพบ links ก็จะทำการติดตาม links ภายใน site จนครบ ซึ่งจากการทำงานในลักษณะโยงใยนี้ จึงเป็นที่มาของคำว่า spider หรือ crawler จากนั้น spider จะนำข้อมูลเว็บดังกล่าวไปเก็บไว้ในฐานข้อมูลของ Search Engine และ spider จะกลับไปตรวจสอบข้อมูลในเว็บนั้น ๆ อย่างสม่ำเสมอ เช่น ทุก 1 หรือ 2 เดือน เพื่อสำรวจความเปลี่ยนแปลง
จัดทำรายการดรรชนี

ข้อมูลที่โปรแกรม spider พบจะถูกทำสำเนาและส่งมาจัดเก็บที่รายการดรรชนี (index หรือ catalog) ตามบัญชีดรรชนีที่ (มนุษย์) กำหนดไว้

หากข้อมูลที่เว็บต้นฉบับมีการเปลี่ยนแปลงข้อมูลในสมุดดรรชนีจะเปลี่ยนแปลงด้วย

โปรแกรมสืบค้น (Search engine software)

จะเป็นโปรแกรมส่วนที่ผู้ใช้อินเทอร์เน็ตติดต่อเข้าใช้บริการ

จะทำหน้าที่ในการค้นคืนข้อมูลจากฐานข้อมูลของ search engine

จะเริ่มต้นการทำงานเมื่อผู้ใช้ป้อนคำค้น

จะนำคำค้นของผู้ใช้ไปจับคู่กับดรรชนีในฐานข้อมูล

แล้วทำการดึงข้อมูล (เอกสารเว็บ) ที่ตรงกับคำค้นออกมา

และจัดลำดับผลการค้นตามระดับความเกี่ยวข้องที่โปรแกรมประเมินได้

Search engine แต่ละตัวจะใช้ตรรกะที่แตกต่างกันไป

ตัวอย่างการสร้างเกณฑ์ในการกำหนดค่าน้ำหนักให้กับคำดรรชนีของ Search engine อาจจัดลำดับ ดังนี้ (Bradley, 2002)

1. จะให้ค่าน้ำหนักความเกี่ยวข้องกับคำค้นมากที่สุด (ตามที่มนุษย์ได้ตั้งค่าโปรแกรมไว้)



2. คำ หรือวลี ที่ปรากฏใน Meta tag elements (เป็นส่วนหนึ่งของการเขียนเอกสาร html)



3. คำ หรือวลี ที่ปรากฏใน Title tag (ปรากฏที่บรรทัดแรกของ Title bar)



4. คำ หรือวลี ที่ปรากฏใน Main heading และ Sub heading (ข้อความที่เป็นขนาดใหญ่ ขนาดรอง ในแต่ละ Web page)



5. จำนวนครั้งที่ คำ หรือวลี ปรากฏในส่วนเนื้อหาของเอกสาร



6. ความถี่ที่เว็บอื่นๆ เชื่อมโยงเข้ามา (มีการตรวจสอบโดยใช้โปรแกรม)


ไม่มีความคิดเห็น:

แสดงความคิดเห็น