Veri sızıntıları makine öğrenimi modellerini altüst edebilir

0
Veri sızıntıları makine öğrenimi modellerini altüst edebilir

Farklı alanlardaki araştırmacılar, verilerdeki kalıpları bulmak için makine öğrenimi modelleri geliştirirken, modelleri eğitmek ve test etmek için genellikle ayrı veri kümeleri kullanır; bu da onlara, eğitilen modellerin yeni, görünmeyen verilerle ne kadar iyi performans gösterdiğini ölçmelerine olanak tanır. Ancak insan hatası nedeniyle bu çizgi bazen yanlışlıkla bulanıklaştırılır ve veriler, modelin onu eğitmek için kullanılan veriler üzerinde ne kadar iyi performans gösterdiğini test etmek için kullanılır.

Yeni bir çalışmada Yale Üniversitesi'nden araştırmacılar, veri sızıntısının özellikle nörogörüntüleme tabanlı modellerin performansını nasıl etkilediğini değerlendirdi ve sonuçları yapay olarak şişirebildiğini veya düzleştirebildiğini buldu.

the Çalışma yayınlandı 28 Şubat Nature Communications'da.

Biyomedikal araştırmacılar, hastalıkların teşhisinden hastalıklara tedavi olabilecek moleküllerin belirlenmesine kadar her türlü görevde makine öğreniminin kullanımını değerlendiriyor. Sinirbilim alanında bilim insanları, beyin ile davranış arasındaki ilişkiyi daha iyi anlamak için makine öğrenimini kullanıyor.

Örneğin, işlevsel nörogörüntüleme verilerine dayanarak bir kişinin yaşını tahmin edecek bir model yetiştirmek için araştırmacılar, modeli fMRI verileriyle ve incelenen bireylerin yaşlarıyla besler. Model daha sonra fMRI verilerindeki kalıpları yaşla ilişkilendirmeye başlayacak ve eğer bu modeller yeterince güçlüyse, model henüz görmediği yeni nörogörüntüleme verilerinden bireyin yaşını tahmin edebilmelidir.

Bir veri sızıntısı meydana geldiğinde, bu “görünmeyen” verilerin bir kısmı, eğitim aşamasında bir şekilde model tarafından zaten görülmüştür; bu, araştırmacıların, modelin tahminlerinin gerçekten tahminler mi yoksa sadece halihazırda mevcut olan bilgilerin tanınması mı olduğundan emin olamayacakları anlamına gelir. elde edildi. Analiz edin.

Araştırmacılar veri sızıntısını önlemenin gerekliliğini geniş çapta kabul ediyor ancak bu çok sık oluyor Dustin ShenostYale Üniversitesi Tıp Fakültesi'nde radyoloji ve biyomedikal görüntüleme alanında doçent ve çalışmanın kıdemli yazarı.

“Veri sızdırmak şaşırtıcı derecede kolay” dedi. “Bunun gerçekleşmesinin birkaç yolu var.”

Veri sızıntısının makine öğrenimi performansını nasıl etkilediğini daha iyi anlamak için araştırmacılar önce sızıntıdan etkilenmeyen fMRI verilerini kullanarak bir makine öğrenimi modeli eğitti ve ardından modelin yaşı ve bireyin bir tür problem çözme becerisini ne kadar iyi tahmin edebildiğini test etti. matris olarak bilinir. Görünmeyen nörogörüntüleme verilerinden çıkarım ve dikkat sorunları. Daha sonra eğitim verilerine farklı türde sızıntılar eklediler ve modelin tahminlerini, bozulmamış eğitim verilerine dayanan tahminlerle karşılaştırdılar.

Araştırmacılar iki tür sızıntının modelin tahmin performansını önemli ölçüde artırdığını buldu. “Özellik seçimi” olarak bilinen ilk durum, araştırmacıların yalnızca eğitim verileri yerine tüm veri kümesinden ilgilenilen beyin bölgelerini seçmesiyle ortaya çıkıyor. “Tekrarlanan konu” bırakma adı verilen ikinci türde, hem eğitim hem de test setlerinde bir kişiden veriler görünür.

Chenost laboratuvarında yüksek lisans öğrencisi ve çalışmanın baş yazarı Matthew Rosenblatt, “Bulgularımızdan biri, özellik seçimi sızıntısının, modelin dikkat sorunlarına ilişkin tahminlerini şişirmesiydi” dedi. “Özellik sızıntısı söz konusu olduğunda, modelin tahminleri güçlüydü ve bu da önemli bir sonuca yol açıyordu. Ancak gerçekte, veri sızıntısı olmadığında, dikkat sorunları açısından tahmin performansı zayıf.”

Bu tür yanlış enflasyon, model iyi performans gösteriyormuş gibi görünmesine neden olabilir, ancak aslında gerçekte görünür olmayan verileri kullanarak pek fazla tahminde bulunamayabilir, bu da araştırmacıların modelleri nasıl yorumladığını etkileyebilir ve diğer araştırmacıların yeteneklerini azaltabilir. yayınlanmış literatürü çoğaltmak. Modele bağlı sonuçlar.

Araştırmacılar, istatistiksel analizlerin yalnızca eğitim verileri yerine tüm veri seti genelinde gerçekleştirildiği başka bir bırakma türünü tanıttıktan sonra, bunun modelin performansını yapay olarak zayıflattığını buldular.

Ayrıca, daha küçük örneklem boyutlarında, daha büyük veri kümelerine göre, bırakma etkileri daha değişkendi ve bu nedenle tahmin edilemezdi.

Rosenblatt, “Ve etkiler model performansıyla sınırlı değil” dedi. “Genellikle bazı nörobiyolojik açıklamalar için modellerimize bakıyoruz ve veri sızıntısı da bunu etkileyebilir; bu da beyin davranışları arasında ilişkiler kurmaya çalışmak açısından önemlidir.”

Tüm sızıntı türleri model performansını güçlü bir şekilde etkilemese de araştırmacılar, tüm sızıntı türlerinden kaçınmanın en iyi uygulama olduğunu söylüyor. Programlama kodunu paylaşmak, aksilikleri önlemenin bir yoludur; çünkü diğerleri, bir sızıntının kasıtsız olarak meydana gelip gelmediğini öğrenebilirler. İyi kurulmuş programlama paketlerini kullanmak, sıfırdan kod yazarken ortaya çıkabilecek hataları önlemeye yardımcı olabilecek başka bir yoldur. Ayrıca araştırmacıları potansiyel sorunlu alanlar hakkında düşünmeye teşvik eden çalışma kağıtları da mevcuttur.

Rosenblatt, “Sonuçlarınız hakkında sağlıklı şüpheciliğe sahip olmak da çok önemli” dedi. “Garip görünen bir şey görürseniz sonuçlarınızı tekrar kontrol etmek ve bunları başka bir şekilde doğrulamaya çalışmak iyi bir fikirdir.”

/Üniversite Sürümü. Orijinal kuruluştan/yazarlardan alınan bu materyal doğası gereği kronolojik olabilir ve açıklık, stil ve uzunluk açısından düzenlenmiştir. Mirage.News kurumsal görüş veya taraf tutmaz ve burada ifade edilen tüm görüşler, konumlar ve sonuçlar yalnızca yazar(lar)a aittir. Tamamını burada görüntüleyin.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir