PROACTIVE THREAT HUNTING sử dụng AI
Cá nhân: NGUYỄN THANH LÂM
Phần mềm giám sát môi trường (Environment Monitoring System) là một giải pháp phần mềm tiên tiến do QTSC cung cấp ý tưởng, nội dung thực hiện để xây dựng phần mềm, giúp theo dõi, phân tích và quản lý các chỉ số môi trường một cách toàn diện và hiệu quả. Phần mềm được thiết kế để phục vụ các tổ chức, doanh nghiệp và cơ quan quản lý trong việc giám sát chất lượng nước, không khí và các yếu tố môi trường khác tại các khu công nghiệp, đô thị và khu vực nhạy cảm về môi trường.
Giới thiệu giải pháp:
Với vai trò đội ngũ phát triển, nhóm chúng tôi không chỉ chú trọng đến giá trị công nghệ và kinh tế của giải pháp, mà còn quan tâm sâu sắc đến khía cạnh cộng đồng – cách giải pháp này góp phần giải quyết các vấn đề xã hội và hỗ trợ những nhóm dễ bị tổn thương:
- Bảo vệ hạ tầng số thiết yếu cho cộng đồng
Giữ cho các dịch vụ công trực tuyến hoạt động ổn định: Hệ thống của chúng tôi bảo vệ các ứng dụng web quan trọng như cổng dịch vụ công, thông tin an sinh xã hội và hệ thống y tế số – những nền tảng mà người dân, đặc biệt là các nhóm yếu thế, dựa vào để tiếp cận các dịch vụ cơ bản.
Che chắn cho hệ thống tài chính bao trùm: Các dịch vụ tài chính dành cho người thu nhập thấp, người khuyết tật hay người ở vùng sâu vùng xa cần được bảo vệ khỏi các cuộc tấn công mạng. Giải pháp của chúng tôi giúp đảm bảo những hệ thống này không bị gián đoạn.
Hỗ trợ cơ sở y tế cộng đồng: Các cơ sở y tế phục vụ người dân thường thiếu nguồn lực bảo mật, dù lưu trữ dữ liệu quan trọng. Chúng tôi giúp giữ an toàn cho những hệ thống này, để dịch vụ y tế đến được với những người cần nhất.
- Bảo vệ dữ liệu cá nhân của các nhóm yếu thế
Ngăn dữ liệu nhạy cảm bị lộ: Dữ liệu của người khuyết tật, người cao tuổi, trẻ em hay người nhập cư thường rất dễ bị tổn hại nếu rò rỉ, dẫn đến lừa đảo hoặc phân biệt đối xử. Giải pháp của chúng tôi tập trung bảo vệ các ứng dụng web chứa những thông tin này.
Hạn chế nguy cơ đánh cắp danh tính: Các nhóm yếu thế thường dễ trở thành mục tiêu của lừa đảo trực tuyến. Bằng cách tăng cường bảo mật cho hệ thống xác thực và dữ liệu cá nhân, chúng tôi giảm bớt những rủi ro này.
- Phát triển bền vững và trách nhiệm xã hội
Đối phó với tấn công nhắm vào cộng đồng yếu thế: Gần đây, một số nhóm tội phạm mạng nhắm đến các tổ chức như cơ sở từ thiện hay y tế cộng đồng. Chúng tôi chú trọng phát hiện các dấu hiệu tấn công nhằm vào những đối tượng này.
Hỗ trợ chuyển đổi số an toàn: Giải pháp góp phần vào nỗ lực chuyển đổi số bao trùm của Việt Nam, đảm bảo quá trình số hóa dịch vụ công không để lại lỗ hổng ảnh hưởng đến người dân, nhất là các nhóm yếu thế.
Đóng góp cho cộng đồng nguồn mở: Chúng tôi dự kiến chia sẻ một phần phương pháp xử lý dữ liệu và thiết kế với cộng đồng nguồn mở, giúp các tổ chức nhỏ tự xây dựng giải pháp bảo mật phù hợp.
Xuất xứ giải pháp:
Trung tâm An ninh mạng - QTSC (QTSC CyberSec)
Tính sáng tạo và đổi mới:
Nghiên cứu này đề xuất một cách tiếp cận mới trong lĩnh vực bảo mật mạng tại Việt Nam, đặc biệt phù hợp với môi trường vận hành của các Trung tâm điều hành An ninh mạng (SOC). Giải pháp chuyển từ cách phòng thủ thụ động – chỉ hành động sau khi sự cố xảy ra – sang việc chủ động tìm kiếm và đối phó với các mối đe dọa. Điều này rất cần thiết khi các cuộc tấn công mạng tại Việt Nam ngày càng phức tạp và có chủ đích, đòi hỏi khả năng nhận diện sớm những dấu hiệu nguy cơ trước khi chúng gây thiệt hại nghiêm trọng.
Điểm mới quan trọng nằm ở việc sử dụng mô hình học sâu DistilBERT để xử lý dữ liệu log bảo mật. Chúng tôi chọn DistilBERT – phiên bản gọn nhẹ của kiến trúc Transformer – vì nó giữ được gần như toàn bộ khả năng phân tích ngôn ngữ của BERT (khoảng 97%) nhưng nhỏ hơn 40% về kích thước. Điều này giúp giảm đáng kể yêu cầu về phần cứng, một thách thức lớn với nhiều tổ chức trong nước, đồng thời tiết kiệm chi phí. Hơn nữa, tốc độ xử lý nhanh của mô hình đáp ứng nhu cầu phân tích và phản ứng gần như tức thời, yếu tố then chốt trong hoạt động SOC.
Sự khác biệt của giải pháp còn đến từ cách nhìn nhận dữ liệu log, ví dụ từ F5 ASM, không chỉ như các bản ghi sự kiện mà như văn bản có ngữ nghĩa. Bằng cách áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên (NLP), nhóm chúng tôi khai thác được ý nghĩa và bối cảnh sâu hơn từ các yêu cầu mạng. Giải pháp tập trung vào phát hiện bất thường thông qua kỹ thuật nhúng (embeddings) và học không giám sát, khác với cách phân loại dựa trên các mẫu tấn công quen thuộc. Nhờ vậy, nó có thể phát hiện những hành vi bất thường, chưa từng gặp – điều mà các hệ thống truyền thống thường bỏ qua.
Giải pháp được thiết kế để dễ dàng tích hợp với các hệ thống SIEM phổ biến như ArcSight hay Elastic Stack, phù hợp với hạ tầng hiện có tại Việt Nam mà không gây xáo trộn lớn. Yêu cầu kỹ thuật được xác định rõ để đáp ứng khả năng đầu tư thực tế. Việc dùng học không giám sát cũng giúp giảm bớt công đoạn gán nhãn dữ liệu tốn kém, vốn là trở ngại về thời gian và nhân lực trong nhiều dự án AI.
Giải pháp trực tiếp hỗ trợ đội SOC trong nước vượt qua những khó khăn hiện tại. Nó giảm tải việc phân tích thủ công bằng cách tự động hóa một phần quy trình, đồng thời nâng cao hiệu quả làm việc cho đội ngũ vốn thiếu nhân lực chuyên sâu. Gánh nặng từ lượng cảnh báo dày đặc cũng được giảm bớt nhờ các kết quả đáng tin cậy hơn, ít cảnh báo sai. Khả năng phát hiện các cuộc tấn công tinh vi như APT – mối đe dọa ngày càng lớn – cũng được cải thiện. Kết quả là thời gian phát hiện (MTTD) và phản ứng (MTTR) được rút ngắn, nâng cao sức mạnh phòng thủ tổng thể.
Về dài hạn, giải pháp này có tính mở, cho phép phân tích thêm nhiều loại log khác ngoài F5 ASM. Mô hình AI có thể được cập nhật thường xuyên để thích nghi với các mối đe dọa mới. Quan trọng hơn, việc ứng dụng công nghệ này không chỉ giải quyết vấn đề trước mắt mà còn góp phần xây dựng năng lực chuyên môn về AI và an ninh mạng cho đội ngũ kỹ sư Việt Nam.
Tính ứng dụng:
- Triển vọng Thương mại:
Chúng tôi nhận thấy giải pháp này có tiềm năng thương mại hóa lớn, đặc biệt khi an ninh mạng đang là mối quan tâm hàng đầu tại Việt Nam. Đối tượng khách hàng chính bao gồm các tổ chức tài chính, ngân hàng, cơ quan nhà nước, doanh nghiệp viễn thông và các tập đoàn lớn – những nơi đang dùng F5 ASM để bảo vệ ứng dụng web. Về cách thức kinh doanh, giải pháp có thể trở thành một phần mềm độc lập hoặc được cung cấp như một dịch vụ quản lý "Săn lùng Mối đe dọa", tạo sự linh hoạt cho người dùng.
Điểm mạnh cạnh tranh nằm ở mức chi phí hợp lý. Với sự am hiểu về ngân sách và thực tế vận hành tại Việt Nam, giải pháp của chúng tôi mang lại hiệu quả cao mà không đắt đỏ như nhiều sản phẩm quốc tế. Ngoài ra, khả năng mở rộng cũng là một lợi thế. Dù hiện tại tập trung vào log F5 ASM, thiết kế của hệ thống cho phép xử lý thêm nhiều loại log khác trong tương lai – như log hệ điều hành, tường lửa hay cơ sở dữ liệu – mở ra cơ hội tiếp cận thị trường rộng lớn hơn.
- Khả năng Triển khai Thực tế:
Ngay từ đầu, chúng tôi đã chú trọng đến việc triển khai sao cho dễ dàng nhất có thể. Giải pháp được thiết kế để tích hợp mượt mà với các hệ thống SIEM phổ biến như ArcSight hay Elastic Stack – vốn quen thuộc với nhiều tổ chức trong nước. Nhờ vậy, việc đưa vào sử dụng không làm phức tạp thêm hạ tầng hiện có, đồng thời giữ chi phí ở mức thấp.
Về yêu cầu kỹ thuật, dù GPU sẽ giúp hệ thống chạy tốt hơn với các mô hình học sâu, việc chọn DistilBERT – nhỏ gọn hơn nhiều so với BERT nhưng vẫn giữ gần hết hiệu quả – giúp giảm áp lực đầu tư phần cứng ban đầu. Đặc biệt, phương pháp học không giám sát loại bỏ nhu cầu gán nhãn dữ liệu, một bước thường mất rất nhiều thời gian và công sức. Điều này đẩy nhanh quá trình triển khai. Để hỗ trợ, chúng tôi đã chuẩn bị bộ tài liệu kỹ thuật chi tiết, bao gồm hướng dẫn rõ ràng về phần cứng, phần mềm và cách cài đặt.
Tính hiệu quả:
Một đóng góp quan trọng của giải pháp là nâng cao rõ rệt hiệu quả làm việc cho đội ngũ SOC. Cụ thể:
Tự động hóa phân tích log phức tạp: Giải pháp thay thế quy trình phân tích log F5 ASM vốn mất nhiều thời gian và công sức. Thay vì các chuyên gia phải ngồi hàng giờ để xem xét từng dòng trong số hàng nghìn, thậm chí hàng triệu bản ghi, mô hình DistilBERT xử lý nhanh chóng và chỉ ra các hành vi bất thường có thể đe dọa bảo mật. Nhờ vậy, đội ngũ phân tích có thêm thời gian cho những nhiệm vụ quan trọng khác.
Giảm bớt cảnh báo thừa: Tình trạng quá tải cảnh báo – một vấn đề quen thuộc trong SOC – được cải thiện đáng kể. Giải pháp tập trung tạo ra những gợi ý săn lùng chất lượng dựa trên phát hiện bất thường, thay vì phụ thuộc vào các quy tắc cố định. Điều này giúp cắt giảm số lượng cảnh báo sai, để các nhà phân tích tập trung vào những sự kiện thực sự đáng chú ý.
Cải thiện quy trình săn lùng mối đe dọa: Hệ thống tự động tìm và xếp thứ tự các bất thường có rủi ro cao nhất, giúp đội SOC sử dụng nguồn lực hiệu quả hơn. Thay vì dàn trải công sức, họ có thể ưu tiên xử lý những khu vực hoặc hành vi nguy hiểm nhất.
Rút ngắn thời gian phát hiện và phản ứng: Nhờ phát hiện sớm các dấu hiệu tấn công – kể cả những kỹ thuật tinh vi mà hệ thống cũ dễ bỏ qua – giải pháp giúp giảm rõ rệt thời gian trung bình để phát hiện (MTTD) và phản ứng (MTTR). Đây là yếu tố cốt lõi để tăng cường khả năng đối phó của đội ngũ.
Tiềm năng phát triển:
Thị trường an ninh mạng tăng trưởng mạnh: Với tình hình tội phạm mạng ngày càng nghiêm trọng – thiệt hại toàn cầu dự kiến vượt 10 nghìn tỷ đô la vào năm 2025 như nghiên cứu đã chỉ ra – nhu cầu về các giải pháp bảo mật hiệu quả đang trở nên cấp thiết hơn bao giờ hết. Đây là một thị trường đầy hứa hẹn, thu hút sự quan tâm lớn từ các nhà đầu tư.
Công nghệ mới và nổi bật: Việc đưa mô hình học sâu DistilBERT vào phân tích log bảo mật, đặc biệt là log F5 ASM, là một bước đi sáng tạo. Cách làm này tạo ra sự khác biệt rõ rệt so với các phương pháp cũ dựa trên quy tắc hay chữ ký, mang lại lợi thế cạnh tranh đáng kể.
Tập trung vào phân khúc độc đáo: Giải pháp nhắm đến việc phân tích chuyên sâu log F5 ASM bằng NLP và phát hiện bất thường – một lĩnh vực chưa được nhiều đối thủ khai thác triệt để. Điều này mở ra cơ hội dẫn đầu thị trường cho những nhà đầu tư quyết định tham gia sớm.
Lợi nhuận đầu tư hấp dẫn: Theo báo cáo của IBM, chi phí trung bình cho một vụ vi phạm dữ liệu lên đến hàng triệu đô la. Khả năng phát hiện và ngăn chặn sớm các cuộc tấn công của giải pháp mang lại giá trị rõ ràng, hứa hẹn suất sinh lời cao cho nhà đầu tư.
Mô hình kinh doanh linh hoạt: Giải pháp có thể được triển khai dưới dạng phần mềm độc lập, dịch vụ thuê bao (SaaS), hoặc "Threat Hunting as a Service". Các lựa chọn này không chỉ đa dạng hóa nguồn thu mà còn đảm bảo khả năng tăng trưởng lâu dài.
Khả năng mở rộng thị trường: Thiết kế mở của hệ thống cho phép xử lý thêm nhiều loại log bảo mật khác ngoài F5 ASM, từ đó mở rộng đáng kể quy mô thị trường và cơ hội sinh lời trong tương lai.
Đội ngũ đáng tin cậy: Nhóm nghiên cứu gồm 6 thành viên sở hữu kiến thức chuyên sâu và kinh nghiệm thực tế trong an ninh mạng lẫn trí tuệ nhân tạo. Điều này tạo sự yên tâm cho nhà đầu tư về khả năng biến ý tưởng thành hiện thực và phát triển sản phẩm thành công.
Tiêu chí về cộng đồng:
Với vai trò đội ngũ phát triển, nhóm chúng tôi không chỉ chú trọng đến giá trị công nghệ và kinh tế của giải pháp, mà còn quan tâm sâu sắc đến khía cạnh cộng đồng – cách giải pháp này góp phần giải quyết các vấn đề xã hội và hỗ trợ những nhóm dễ bị tổn thương:
- Bảo vệ hạ tầng số thiết yếu cho cộng đồng
Giữ cho các dịch vụ công trực tuyến hoạt động ổn định: Hệ thống của chúng tôi bảo vệ các ứng dụng web quan trọng như cổng dịch vụ công, thông tin an sinh xã hội và hệ thống y tế số – những nền tảng mà người dân, đặc biệt là các nhóm yếu thế, dựa vào để tiếp cận các dịch vụ cơ bản.
Che chắn cho hệ thống tài chính bao trùm: Các dịch vụ tài chính dành cho người thu nhập thấp, người khuyết tật hay người ở vùng sâu vùng xa cần được bảo vệ khỏi các cuộc tấn công mạng. Giải pháp của chúng tôi giúp đảm bảo những hệ thống này không bị gián đoạn.
Hỗ trợ cơ sở y tế cộng đồng: Các cơ sở y tế phục vụ người dân thường thiếu nguồn lực bảo mật, dù lưu trữ dữ liệu quan trọng. Chúng tôi giúp giữ an toàn cho những hệ thống này, để dịch vụ y tế đến được với những người cần nhất.
- Bảo vệ dữ liệu cá nhân của các nhóm yếu thế
Ngăn dữ liệu nhạy cảm bị lộ: Dữ liệu của người khuyết tật, người cao tuổi, trẻ em hay người nhập cư thường rất dễ bị tổn hại nếu rò rỉ, dẫn đến lừa đảo hoặc phân biệt đối xử. Giải pháp của chúng tôi tập trung bảo vệ các ứng dụng web chứa những thông tin này.
Hạn chế nguy cơ đánh cắp danh tính: Các nhóm yếu thế thường dễ trở thành mục tiêu của lừa đảo trực tuyến. Bằng cách tăng cường bảo mật cho hệ thống xác thực và dữ liệu cá nhân, chúng tôi giảm bớt những rủi ro này.
- Phát triển bền vững và trách nhiệm xã hội
Đối phó với tấn công nhắm vào cộng đồng yếu thế: Gần đây, một số nhóm tội phạm mạng nhắm đến các tổ chức như cơ sở từ thiện hay y tế cộng đồng. Chúng tôi chú trọng phát hiện các dấu hiệu tấn công nhằm vào những đối tượng này.
Hỗ trợ chuyển đổi số an toàn: Giải pháp góp phần vào nỗ lực chuyển đổi số bao trùm của Việt Nam, đảm bảo quá trình số hóa dịch vụ công không để lại lỗ hổng ảnh hưởng đến người dân, nhất là các nhóm yếu thế.
Đóng góp cho cộng đồng nguồn mở: Chúng tôi dự kiến chia sẻ một phần phương pháp xử lý dữ liệu và thiết kế với cộng đồng nguồn mở, giúp các tổ chức nhỏ tự xây dựng giải pháp bảo mật phù hợp.
Cơ sở hạ tầng:
Để triển khai và vận hành hiệu quả giải pháp săn lùng mối đe dọa chủ động dựa trên mô hình DistilBERT và phân tích nhật ký F5 ASM, hệ thống cần đáp ứng các yêu cầu về hạ tầng phần cứng và phần mềm như sau:
1. Phần cứng (Hardware)
Việc xử lý khối lượng lớn nhật ký bảo mật, vận hành các mô hình xử lý ngôn ngữ phức tạp như DistilBERT để tạo vector đặc trưng, và thực hiện các thuật toán phát hiện bất thường đòi hỏi một hạ tầng phần cứng đủ mạnh, đặc biệt là về năng lực tính toán song song và khả năng tăng tốc xử lý.
Máy chủ chuyên dụng:
Số lượng: Đề xuất từ 1 đến 2 node máy chủ vật lý chuyên dụng (hoặc 1 node cấu hình mạnh). Số lượng cụ thể nên được xác định dựa trên kết quả đánh giá hiệu năng thực tế với khối lượng nhật ký và tốc độ xử lý mong muốn tại SOC. Thực tế tài nguyên đề tài sử dụng trên nền tảng ảo hóa.
Mục đích: Các máy chủ này sẽ đảm nhận toàn bộ gánh nặng xử lý của giải pháp, từ tiền xử lý dữ liệu đầu vào đến vận hành mô hình và trả kết quả.
Bộ xử lý trung tâm (CPU):
Yêu cầu: Tối thiểu 32+ vCPUs (lõi ảo).
Khuyến nghị: 48-64+ vCPUs, ưu tiên các dòng CPU hiệu năng cao dành cho máy chủ như Intel Xeon Gold/Platinum hoặc AMD EPYC thế hệ mới.
Mục đích: Xử lý song song các tác vụ tiền xử lý dữ liệu nhật ký (phân tích cú pháp, giải mã, làm sạch văn bản), chạy các thuật toán phát hiện bất thường (ví dụ: Isolation Forest trên tập vector), và quản lý luồng công việc chung.
Bộ nhớ truy cập ngẫu nhiên (RAM):
Yêu cầu: Tối thiểu 128GB.
Khuyến nghị: 256GB đến 512GB, sử dụng loại RAM ECC DDR4 hoặc DDR5 để đảm bảo tính ổn định và sửa lỗi.
Mục đích: Lưu trữ các lô nhật ký lớn trong bộ nhớ để xử lý, chứa hàng trăm nghìn đến hàng triệu vector đặc trưng do mô hình DistilBERT tạo ra, và nạp các mô hình cần thiết. Dung lượng RAM lớn đảm bảo hiệu năng xử lý, tránh tình trạng tràn bộ nhớ khi xử lý dữ liệu lớn.
Bộ xử lý đồ họa (GPU):
Yêu cầu: Tối thiểu 2 GPU NVIDIA hiệu năng cao.
Khuyến nghị: Từ 2 đến 4 GPU NVIDIA dòng A100/H100 (với bộ nhớ 80GB VRAM là lý tưởng) hoặc các dòng thấp hơn như A10/A30/RTX A-series có VRAM lớn và năng lực tính toán Tensor Core tốt. Việc lựa chọn loại GPU và số lượng cần dựa trên đánh giá hiệu năng thực tế về tốc độ tạo vector đặc trưng mong muốn.
Mục đích: Đây là thành phần cực kỳ quan trọng để tăng tốc đáng kể quá trình tạo vector đặc trưng từ mô hình DistilBERT. Xử lý ngôn ngữ tự nhiên với Transformer trên GPU nhanh hơn rất nhiều so với chỉ dùng CPU, đảm bảo khả năng xử lý nhật ký với thông lượng cao, gần thời gian thực.
Ổ cứng (Storage):
Yêu cầu: Tối thiểu 1TB - 2TB dung lượng lưu trữ.
Loại: Ưu tiên sử dụng ổ cứng NVMe SSD.
Mục đích: Tốc độ đọc/ghi cực nhanh của NVMe SSD là cần thiết cho việc đọc nhanh các lô nhật ký đầu vào, lưu trữ tạm thời các dữ liệu trung gian (như nhật ký đã tiền xử lý), và quan trọng nhất là lưu/đọc các tệp vector đặc trưng lớn. Dung lượng lưu trữ cần đủ lớn tùy theo nhu cầu lưu trữ nhật ký gốc, vector đặc trưng và các mô hình.
Mạng (Network):
Yêu cầu: Card mạng có tốc độ tối thiểu 10 Gbps.
Mục đích: Đảm bảo luồng dữ liệu nhật ký từ hệ thống SIEM (hoặc các bộ chuyển tiếp nhật ký) đến máy chủ không bị nghẽn cổ chai, đáp ứng yêu cầu xử lý dữ liệu tốc độ cao.
2. Phần mềm (Software)
Môi trường phần mềm cần được thiết lập với các hệ điều hành, ngôn ngữ lập trình và thư viện phù hợp để phát triển, triển khai và vận hành giải pháp.
Hệ điều hành:
Khuyến nghị: Các bản phân phối Linux dành cho máy chủ như Ubuntu Server (phiên bản 20.04 LTS trở lên) hoặc CentOS (hoặc các bản kế nhiệm như Rocky Linux, AlmaLinux).
Lý do: Linux là môi trường tiêu chuẩn, ổn định và được tối ưu hóa cho việc triển khai các ứng dụng xử lý ngôn ngữ, đồng thời tương thích tốt nhất với các trình điều khiển GPU NVIDIA và các thư viện liên quan.
Ngôn ngữ lập trình:
Yêu cầu: Python phiên bản 3.8 trở lên.
Lý do: Python là ngôn ngữ lập trình phổ biến nhất trong lĩnh vực Khoa học dữ liệu và xử lý ngôn ngữ tự nhiên, với hệ sinh thái thư viện hỗ trợ cực kỳ phong phú.
Thư viện chính:
transformers (từ Hugging Face): Cung cấp các mô hình Transformer đã được tiền huấn luyện (bao gồm DistilBERT) và các công cụ tokenizer tương ứng để xử lý văn bản đầu vào.
torch (PyTorch) hoặc tensorflow: Là các framework học sâu nền tảng, cung cấp các công cụ để xây dựng, huấn luyện (nếu cần tinh chỉnh) và chạy các mô hình trên CPU/GPU. transformers thường tích hợp tốt với cả hai.
scikit-learn: Cung cấp các thuật toán học máy cổ điển, bao gồm các thuật toán phát hiện bất thường (học không giám sát) như IsolationForest, OneClassSVM, các thuật toán phân cụm, và các tiện ích khác (ví dụ: chuẩn hóa dữ liệu, đánh giá mô hình).
Thư viện Hỗ trợ:
pandas, numpy: Các thư viện nền tảng cho thao tác dữ liệu hiệu quả (đọc, ghi, biến đổi dữ liệu dạng bảng) và các phép toán số học.
json, urllib.parse, re (Regular Expressions): Các thư viện tích hợp sẵn hoặc cần cài đặt thêm để xử lý dữ liệu nhật ký (thường có định dạng JSON), giải mã các thành phần URL (ví dụ: query string), và làm sạch/trích xuất thông tin từ văn bản bằng biểu thức chính quy.
Quản lý môi trường:
Khuyến nghị: Sử dụng conda (từ Anaconda/Miniconda) hoặc venv (tích hợp sẵn trong Python).
Mục đích: Tạo ra các môi trường ảo độc lập để quản lý các phiên bản cụ thể của Python và các thư viện phụ thuộc, tránh xung đột phiên bản giữa các dự án hoặc với các thư viện hệ thống.
Tích hợp SIEM:
Yêu cầu: Cần phát triển các script hoặc bộ kết nối tùy chỉnh để thực hiện hai nhiệm vụ chính:
log F5 ASM từ hệ thống SIEM hiện có (ví dụ: Arcsight, Elastic Stack) về máy chủ để xử lý. Phương thức có thể là truy vấn qua API của SIEM, nhận dữ liệu qua Syslog.
Gửi các kết quả phân tích (ví dụ: điểm số bất thường, danh sách các yêu cầu đáng ngờ kèm ngữ cảnh) trở lại SIEM để hiển thị trên bảng điều khiển, tạo cảnh báo, hoặc tích hợp vào quy trình điều tra của SOC.
Khoảng thời gian triển khai: Dưới 3 tháng
Tài liệu mô tả kỹ thuật https://drive.google.com/file/d/14At075wBL2_iqTpQ-MIrZVxNepPcexBJ/view?usp=sharing
Số người tham gia: 6