DLP’de İçerik Analizi Yöntemleri

İlk çıkış amacı içeriden dışarıya doğru sızıntıları engellemek olan DLP sistemleri ağda ve uç noktalarda trafiği analiz edebilmek için derin paket analizi yöntemlerini kullanır. DLP, paketi ne kadar derin inceleyebilirse o kadar iyi tanımlama ve üzerindeki politikaya göre de engelleme yapar. DLP sistemleri bunun için belli başlı 8 yöntem kullanır.

UYARI: Bu yazı ve yazı dizisinin tamamı bir teknik proje halinde bir yüksek lisans programında zaten sunulmuştur. Bu yazıların ve içindeki herhangi bir bilginin izinsiz alınması, kopyalanması, çoğaltılması ve başka bir yerde farklı bir kişi tarafından yazılmış gibi yayınlanması/kullanılması kesinlikle yasaktır.

 

dlp-sizma-yerleri

DLP’de içerik analizi yöntemleri genel olarak şu şekillerde sınıflandırılabilir:

 

DÜZENLİ İFADELER VE ANLAMLI KURALLAR

Düzenli ifadeler (regular expressions) ile anlamlı kurallar her DLP sisteminde mevcut olan ortak ve neredeyse standart bir yöntemdir. Düzenli ifadeler ile belirli bir kalıpta tanımlı kurallara denk gelen kaçak içerikler tespit edilebilmektedir. Buna verilebilecek en belirgin örnekler olarak TC kimlik numaraları, kredi kartı numaraları, vergi numaraları ya da banka hesap numaraları gösterilebilir. Bu tip özel numaralar ya da metinsel ifadeler belli bir algoritmaya göre üretildiği için, algoritmanın kendisi düzenli bir ifade ve anlamlı kurala dönüştürüldüğünde, DLP sisteminin içinden geçen ve kuralla eşleşen bilgiler anında tespit edilebilmektedir. Bu yöntem hem fazla yanlış alarm (false positive) üretir hem de yapılandırılmamış (unstructured) içeriklerin tepsinde yetersizdir.

VERİ TABANI PARMAK İZİ

Tam veri eşleştirmesi (database fingerprinting) olarak da bilinen bu yöntemde hassas veya gizli nitelikte verilerin tutulduğu (kimlik no, hesap no, müşteri bilgi gibi) veri tabanlarının parmak izi çıkartılarak, taramada ilgili eşleştirme yakalandığında başarılı bir şekilde engelleme yapılır. Parmak izi taramada her bir verinin birebir eşleşmesi esastır. Veri tabanlarında parmak izi alınması işlemi ister canlı olarak istenirse de belli aralıklarda yapılabilir. Veri tabanları üzerinde canlı parmak izi alımları sistem performans sorunları doğurabilirken, pasif olarak belli periyotlarda alım gerçekleştirildiğinde de sürekli güncellenen veri tabanlarında parmak izi alınamayan veriler atlanılmış olur.

TAM DOSYA EŞLEŞTİRMESİ

Tam dosya eşleştirme (exact file matching) yönteminde özellikle fikri mülkiyet niteliğindeki video, resim, proje ve çizim gibi özel formattaki dosyaların özetleri (hash) çıkarılarak, DLP tarafından tanımlanması sağlanır. Buradaki asıl amaç dosyanın içeriğinin taranması değildir. Özellikle büyük boyutlu dosyaların tespit edilmesinde çok işe yarayan bu yöntemde içeriğe tam olarak bakılmamakta, sadece ilgili özetin eşleşmesi beklenmektedir. Özeti alınan dosyalar tekrar düzenlendiğinde, DLP’nin tespit edebilmesi için yeniden özet alma işlemi yapılmak zorunda kalınır.

KISMİ BELGE EŞLEŞTİRMESİ

Bu yöntemde, korunan belgenin tam ya da kısmi eşleşmesi aranır. Bu yöntem, fikri mülkiyeti olan belgelerin tamamının ya da bir kısmının özellikle anlık mesajlaşma, internetteki forum ve yorum sayfaları ile sosyal ağların form alanlarına kopyalanıp yapıştırılmasının tespit edilmesine dayanır. Bu yöntemde önceden hassas ve gizli olarak belirlenen belgelerin ya tamamı ya da paragraf (cümle bazlı) olarak özetleri alınır. Ayrıca dilbilimsel analiz yoluyla kopyalanan cümlelerdeki ufak değişiklikler de tespit edilebilmektedir. Bu yöntemde çok miktarda içerik kullanılırsa performans sorunları yaşanabilir, ortak sözcük ve lazıf kalıpları yanlış alarmların sayısını artırabilir. Ama bu yöntem fikri mülkiyeti olan belgeler, program kaynak kodları ve belirli bir yapıda olmayan içeriklerin tespitinde başarılıdır.

İSTATİSTİKSEL ANALİZ

Bu yöntem Bayes analizi, makine öğrenme ve diğer istatistikî teknikleri kullanarak korunan içeriğe benzer olan içerik parçasındaki politikaları ihlal eden kısımları bulmaya dayanır. Spam engellemede kullanılan tekniklere benzeyen bu yöntem özellikle kısmi eşleştirmenin etkili olamadığı yapılandırılmamış içeriklerin tespitinde başarılıdır. Bu yöntem etkili olabilmek yani ‘öğrenebilmek’ için çok miktarda içeriğe ihtiyaç duyar.

KAVRAMSAL VE LÜGAT EŞLEŞMESİ

Bu yöntem belirli sözlükler, kurallar ve diğer analizleri bir arada kullanarak belli bir fikirle eşleşen içerikleri korumak için kullanılır. Örneğin cinsel taciz, iş arama ya da endüstriyel casusluk gibi hareketlerin tespitinde başvurulan bir yöntemdir. Bu yöntemde politika ihlallerini bulmak için anahtar sözcük, kelime sayıları ve kullanım konumlarına bakılır. Bu yöntemin en büyük zorluğu basitçe ve tek başına oluşturulamamasıdır. Bu, DLP sisteminin sağlayıcısı ve ihtiyaçlar doğrultusunda birden çok iş kolunun ortak ve uzun süreli çalışması sonucu belli mantık çerçevesinde geliştirilebilecek bir yöntemdir. Kavramsal ve lügat eşleşmesi etkili bir yöntem olmakla beraber, karmaşıklığı ve kullanım şeklinden ötürü çok fazla “false positives” ve “false negatives” sonuçları üretebilir.

ÖN TANIMLI KATEGORİLER

Ön tanımlı kategori, DLP ürünüyle birlikte gelen önceden oluşturulmuş ve PCI/DSS, COBIT, HIPAA ve ISO gibi belli başlı uluslar arası standartlara dayalı kategorilerden oluşan bir yöntemdir. Bu yöntem ülkelere ve coğrafyalara göre farklılıklara gösterir. Birçok organizasyon türü için kategori yöntemi oldukça yeterli olabilirken, bütün kaçaklar için güvenilebilecek yegâne yöntem değildir.

OCR BAZLI EŞLEŞME

Yukarıdaki 7 genel yöntemin dışında bir de faydalandığı teknoloji açısından dikkate değer olan ve resim/fotoğraf türündeki medyaların direkt içini taramayı sağlayan OCR (optik karakter tanımlama) bazlı eşleşme yöntemidir. Optik karakter tanıma ya da OCR,  “taranmış kâğıt evrakları, PDF dosyaları veya dijital bir kamerayla çekilen resimler gibi değişik belge türlerini düzenlenebilir ve aranabilir verilere dönüştürmenize olanak sağlayan bir teknolojidir” (alıntıdır). OCR tabanlı eşleşme yöntemi ise resim olarak kaydedilen dijital belgeler ya da tarayıcıdan resim olarak taranan belgelerin içindeki yazıların OCR ile tespit edilmesine dayanır. OCR yöntemi özellikle ağdaki tarayıcılardan sızan belgelerin tespitinde ve de bilgisayarda resim olarak kaydedilip dışarıya e-posta ya da web yoluyla çıkartılması olaylarında oldukça işe yarardır.

 

DLP’de içerik analizi olarak kullanılan bu 8 yöntem piyasadaki birçok DLP ürününde kullanılırken, bazıları bunların tamamını birden ya uygulamıyor ya da uygularken farklılıklar sergiliyorlar. Yine ürünlerin genelinde birden fazla analiz yöntemi zincirleme bir şekilde arka arkaya ya da iç içe kullanılarak daha etkin koruma gerçekleştirilebiliyor. Sonraki bölümde üç farklı veri tipi için bu bölümde anlattığımız yöntemlerin nasıl ve nerede kullanıldığını inceleyeceğiz.

M. MEKİN PESEN

YAZAR:

Özel bir kurumda kıdemli bilgi güvenliği uzmanı olarak çalışan M. Mekin Pesen, Elektrik-Elektronik Mühendisliği lisans ve Bilgi Güvenliği Mühendisliği yüksek lisans diplomaları ile CISSP, ECSA, CEH ve CCSA sertifikalarına sahiptir. Kendisi siber güvenlik ve bilgi güvenliği genel başlıkları altında çeşitli konularda uzmanlaşmaktadır.


    

E-Bültene Kaydolun, Makaleler Posta Kutunuza Gelsin

Bu yazıyı başka hiçbir yerde ve şekilde yayınlayamazsınız ve/veya kullanamazsınız. Bu yazıyı kullanmanız, başka herhangi bir uyarıya gerek kalmadan her türlü hukuki sonucu daha en baştan kabul ettiğiniz manasına gelir.