เว็บครอว์เลอร์
เว็บครอว์เลอร์ (อังกฤษ: Web Crawler) เป็นบอตอินเทอร์เน็ตที่ทำงานท่องไปบนเวิลด์ไวด์เว็บ โดยปกติแล้วมีจุดประสงค์เพื่อทำการจัดทำดัชนีเว็บ
เว็บครอว์เลอร์อาจเรียกว่า เว็บสไปเดอร์ (web spider)[1] มด (ant) ตัวจัดทำดัชนีอัตโนมัติ (automatic indexer)[2] ในโปรแกรม FOAF มีชื่อเรียกว่า Web scutter[3]
เสิร์ชเอนจินและบางเว็บไซต์ใช้เว็บครอว์เลอร์ในการปรับปรุงเนื้อหาเว็บหรือดัชนีของเนื้อหาเว็บอื่น ๆ ตัวเว็บครอว์เลอร์นั้นสามารถคัดลอกหน้าที่มันผ่านเข้าไปประมวลผล เพื่อที่การค้นหาเว็บด้วยเสิร์ชเอนจินหลังจากนั้นจะสามารถใช้ดัชนีเข้ามาช่วยทำให้ได้ผลลัพธ์เร็วขึ้นเป็นอย่างมาก
นโยบายความสุภาพ
แก้ครอเวอร์สามารถดึงข้อมูลได้รวดเร็วกว่ามนุษย์ ดังนั้นมันจึงสามารถสร้างผลเสียต่อประสิทธิภาพของเว็บไซต์ ไม่จำเป็นต้องบอกว่าถ้าครอเลอร์ตัวนึงทำการร้องขอข้อมูลจำนวนมากต่อวินาที หรือดาวโหลดไฟล์ขนาดใหญ่ จะเป็นการยากลำบากที่เซอเวอร์จะแบกรับคำขอจำนวนมากได้
การใช้ครอว์เลอร์มีประโยชน์ต่องานหลายแขนง แต่มีราคาต่อสังคมทั่วไป ต้นทุนของครอว์เลอร์มีทั้ง
- ทรัพยากรเน็ตเวิร์ค ครอว์เลอร์ต้องการแบนวิธจำนวนมาก และทำงานแบบคู่ขนาดในระยะเวลาที่นาน
- เซอร์เวอร์แบกรับภาระที่หนักเกินไป โดยเฉพาะเมื่อความถี่ในการเข้าถึงสูง
- ครอเลอร์ที่ถูกเขียนมาไม่ดี ซึ่งสามารถทำให้เซอร์เวอร์พหรือเราเตอร์หยุดทำงาน หรือดาวโหลดหน้าที่พวกเขาไม่สามารถรองรับ
- ครอเลอร์ส่วนตัว ที่ถ้าถูกปล่อยโดยผู้ใช้จำนวนมาก สามารถรบกวนระบบเน็ตเวิร์คหรือเว็บเซอร์เวอร์
อ้างอิง
แก้- ↑ Spetka, Scott. "The TkWWW Robot: Beyond Browsing". NCSA. คลังข้อมูลเก่าเก็บจากแหล่งเดิมเมื่อ 2004-09-03. สืบค้นเมื่อ 21 November 2010.
- ↑ Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the web". ACM Computing Surveys. ACM Press. 32 (2): 144–173. doi:10.1145/358923.358934.
{{cite journal}}
: CS1 maint: multiple names: authors list (ลิงก์) - ↑ See definition of scutter on FOAF Project's wiki เก็บถาวร 2009-12-13 ที่ เวย์แบ็กแมชชีน