หน้านี้ได้รับการแปลโดย Cloud Translation API

การตรวจสอบแนวทางปฏิบัติที่ดีที่สุด

Edge for Private Cloud เวอร์ชัน 4.17.05

การแจ้งเตือนการตรวจสอบ

Apigee Edge จะช่วยให้คุณส่งต่อการแจ้งเตือนไปยัง Syslog หรือระบบ/เครื่องมือตรวจสอบภายนอกได้เมื่อ "ข้อผิดพลาด" หรือ "ล้มเหลว" เกิดขึ้นเนื่องจากเหตุการณ์ล้มเหลว การแจ้งเตือนเหล่านี้อาจเป็นการแจ้งเตือนระดับระบบ หรือ การแจ้งเตือน/เหตุการณ์ระดับแอปพลิเคชัน การแจ้งเตือนระดับแอปพลิเคชันส่วนใหญ่เป็นการแจ้งเตือนแบบกำหนดเองที่ สร้างขึ้นตามเหตุการณ์ที่สร้างขึ้น ผู้ดูแลเครือข่ายมักจะกำหนดค่าการกำหนดค่า โปรดติดต่อทีมสนับสนุนของ Apigee เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งเตือน

การตั้งค่าเกณฑ์การแจ้งเตือน

กำหนดเกณฑ์ที่จะใช้สร้างการแจ้งเตือนหลังจากนั้น สิ่งที่คุณตั้งค่าจะขึ้นอยู่กับ การกำหนดค่าฮาร์ดแวร์ คุณควรกำหนดเกณฑ์ให้สอดคล้องกับขีดจำกัดของคุณ เช่น Apigee Edge อาจต่ำเกินไปหากคุณมีความจุเพียง 6 GB คุณกำหนดเกณฑ์ได้โดยใช้เครื่องหมายเท่ากับ (=) หรือมากกว่า (>) คุณยังระบุช่วงเวลาระหว่าง 2 ช่วงต่อกันได้ด้วย การสร้างการแจ้งเตือน คุณสามารถใช้ตัวเลือก ชั่วโมง/นาที/วินาที

เกณฑ์ในการตั้งค่าการแจ้งเตือนระดับระบบ

โดยตารางต่อไปนี้จะอธิบายเกณฑ์ดังกล่าว

การแจ้งเตือน	เกณฑ์ที่แนะนำ	คำอธิบาย
หน่วยความจำเหลือน้อย	500MB	หน่วยความจำเหลือน้อยเกินกว่าที่จะเริ่มคอมโพเนนต์
พื้นที่ในดิสก์ต่ำ (/var/log)	8GB	พื้นที่ในดิสก์ต่ำเกินไป
ภาระงานสูง	3+	กระบวนการที่รอทำงานมีจำนวนเพิ่มขึ้นโดยไม่คาดคิด
หยุดกระบวนการแล้ว	ไม่มี ค่าบูลีนเป็น "จริง" หรือ "เท็จ"	กระบวนการ Apigee Java ในระบบหยุดทำงาน

การตรวจสอบเกี่ยวกับ Apigee สำหรับ Apigee และบุคคลที่สามโดยเฉพาะ พอร์ต

ตรวจสอบพอร์ตต่อไปนี้เพื่อให้แน่ใจว่าทำงานอยู่

พอร์ต 4526, 4527 และ 4528 บนเซิร์ฟเวอร์การจัดการ เราเตอร์ และผู้ประมวลผลข้อความ
พอร์ต 1099, 1100 และ 1101 บนเซิร์ฟเวอร์การจัดการ เราเตอร์ และผู้ประมวลผลข้อความ
พอร์ต 8081 และ 15999 บนเราเตอร์
พอร์ต 8082 และ 8998 บน Message Processor

พอร์ต 8080 บนเซิร์ฟเวอร์การจัดการ ตรวจสอบพอร์ตของบุคคลที่สามต่อไปนี้เพื่อให้แน่ใจว่า ใช้งานอยู่

พอร์ต Qpid 5672
Postgres พอร์ต 5432
Cassandra Port 7000, 7199, 9042, 9160
พอร์ต ZooKeeper 2181
พอร์ต OpenLDAP 10389

หากต้องการระบุพอร์ตที่คอมโพเนนต์ Apigee แต่ละรายการกำลังฟังการเรียก API ให้ออก การเรียก API ต่อไปนี้ไปยังเซิร์ฟเวอร์การจัดการ (ซึ่งโดยทั่วไปจะอยู่ในพอร์ต 8080)

curl -v -u <username>:<password> http://<host>:<port>/v1/servers?pod=gateway&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=central&region=dc-1
curl -v -u <username>:<password> http:// <host>:<port>/v1/servers?pod=analytics&region=dc-1

เอาต์พุตของคำสั่งเหล่านี้จะมีส่วนที่คล้ายกับดังที่แสดงด้านล่าง "http.management.port" ส่วน ให้หมายเลขพอร์ตของคอมโพเนนต์ที่ระบุ

{
  "externalHostName" : "localhost",
  "externalIP" : "111.222.333.444",
  "internalHostName" : "localhost",
  "internalIP" : "111.222.333.444",
  "isUp" : true,
  "pod" : "gateway",
  "reachable" : true,
  "region" : "default",
  "tags" : {
    "property" : [ {
      "name" : "Profile",
      "value" : "Router"
    }, {
      "name" : "rpc.port",
      "value" : "4527"
    }, {
      "name" : "http.management.port",
      "value" : "8081"
    }, {
      "name" : "jmx.rmi.port",
      "value" : "1100"
    } ]
  },
  "type" : [ "router" ],
  "uUID" : "2d4ec885-e20a-4173-ae87-10be38b35750"
}

การดูบันทึก

ไฟล์บันทึกจะติดตามข้อความเกี่ยวกับเหตุการณ์/การดำเนินการของระบบ ข้อความปรากฏขึ้น ในบันทึกเมื่อกระบวนการเริ่มต้นและเสร็จสมบูรณ์ หรือเมื่อมีเงื่อนไขข้อผิดพลาดเกิดขึ้น ด้วยการดูบันทึก คุณสามารถรับข้อมูลเกี่ยวกับส่วนประกอบของระบบ เช่น CPU, หน่วยความจำ, ดิสก์, โหลด กระบวนการอื่นๆ เป็นต้น ก่อนและหลังการบรรลุสถานะล้มเหลว วิธีนี้ยังช่วยให้คุณระบุและ วินิจฉัยแหล่งที่มาของปัญหาระบบปัจจุบันหรือช่วยคุณคาดการณ์ระบบที่เป็นไปได้ ปัญหา

ตัวอย่างเช่น บันทึกระบบโดยทั่วไปของคอมโพเนนต์จะมีรายการต่อไปนี้ตามที่เห็นด้านล่าง

TimeStamp = 25/01/13 19:25 ; NextDelay = 30
Memory
HeapMemoryUsage = {used = 29086176}{max = 64880640} ;    
NonHeapMemoryUsage = {init = 24313856}{committed = 57278464} ;
Threading
PeakThreadCount = 53 ; ThreadCount = 53 ;
OperatingSystem
SystemLoadAverage = 0.25 ;

คุณสามารถแก้ไขไฟล์ /opt/apigee/conf/logback.xml เพื่อควบคุมกลไกการบันทึกได้โดยไม่ต้อง ต้องรีสตาร์ทเซิร์ฟเวอร์ ไฟล์ logback.xml มีพร็อพเพอร์ตี้ต่อไปนี้ที่กำหนดฟังก์ชัน ความถี่ที่กลไกการบันทึกจะตรวจสอบไฟล์ logback.xml เพื่อดูการเปลี่ยนแปลงการกำหนดค่า

<configuration scan="true" scanPeriod="30 seconds" >

โดยค่าเริ่มต้น กลไกการบันทึกจะตรวจสอบการเปลี่ยนแปลงทุกนาที หากคุณไม่ใส่หน่วยเวลา กับแอตทริบิวต์ scanPeriod ก็ให้ ค่าเริ่มต้นคือมิลลิวินาที

ตารางต่อไปนี้จะบอกตำแหน่งไฟล์บันทึกของคอมโพเนนต์ Apigee Edge Private Cloud

ส่วนประกอบ	ตำแหน่ง
เซิร์ฟเวอร์การจัดการ	opt/apigee/var/log/edge-management-server
เราเตอร์	opt/apigee/var/log/edge-router
Message Processor	opt/apigee/var/log/edge-message-processor
เซิร์ฟเวอร์ Qpid	opt/apigee/var/log/edge-qpid-server
เซิร์ฟเวอร์ Apigee Postgres	opt/apigee/var/log/edge-postgres-server
UI ของ Edge	opt/apigee/var/log/edge-ui
ZooKeeper	opt/apigee/var/log/apigee-zookeeper
OpenLDAP	opt/apigee/var/log/apigee-openldap
Cassandra	opt/apigee/var/log/apigee-cassandra
คพิด	opt/apigee/var/log/apigee-qpidd
ฐานข้อมูล PostgreSQL	opt/apigee/var/log/apigee-postgresql

กำลังเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับข้อความ โปรเซสเซอร์และ Edge UI

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับโปรแกรมประมวลผลข้อความ

ในโหนดตัวประมวลผลข้อความ ให้แก้ไข /opt/apigee/customer/application/messsage-processor.properties หากไม่มี ให้สร้างไฟล์ดังกล่าว
เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
conf_system_log.level=DEBUG
รีสตาร์ทโปรแกรมประมวลผลข้อความ โดยทำดังนี้
> /opt/apigee/apigee-service/bin/apigee-service edge-message-processor รีสตาร์ท

วิธีเปิดใช้บันทึกการแก้ไขข้อบกพร่องสำหรับ Edge UI

ในโหนด Edge UI ให้แก้ไข /opt/apigee/customer/application/ui.properties หากไม่มี ให้สร้างไฟล์ดังกล่าว
เพิ่มพร็อพเพอร์ตี้ต่อไปนี้ลงในไฟล์
conf_application_logger.application=DEBUG
รีสตาร์ท Edge UI ดังนี้
> /opt/apigee/apigee-service/bin/apigee-service รีสตาร์ท EDGE-UI ของการบริการ

เครื่องมือตรวจสอบ

เครื่องมือตรวจสอบ เช่น Nagios, Collectd, Graphite, Splunk, Sumologic และ Monit สามารถช่วยคุณได้ ติดตามตรวจสอบทั้งสภาพแวดล้อมขององค์กรและกระบวนการทางธุรกิจ

ส่วนประกอบ		Nagios	เก็บรวบรวมแล้ว	Splunk
การตรวจสอบระดับระบบ	การใช้งาน CPU	?	?
	หน่วยความจำว่าง/มือสอง	?	?
	การใช้งานพื้นที่ในดิสก์	?	?
	สถิติเครือข่าย	?	?
กระบวนการ		?
การตรวจสอบ API		?
JMX		?
Java			?
ไฟล์บันทึก				?
เหตุการณ์วิกฤต	ถึงขีดจำกัดอัตราคำขอ			?
	เข้าถึงเซิร์ฟเวอร์แบ็กเอนด์ (Hybris หรือ SharePoint) ไม่ได้			?
	เข้าถึง FaaS (STS) ไม่ได้			?
เหตุการณ์คำเตือน	เข้าถึงเซิร์ฟเวอร์ SMTP ไม่ได้			?
เหตุการณ์คำเตือน	มีการละเมิด SLA			?