Proje kapsamında yaklaşık bir milyon eser, 254 farklı dilde erişime sunuldu. Hugging Face platformu üzerinden yayımlanan bu eşsiz veri seti, sadece dilsel çeşitliliğiyle değil; tarihî ve kültürel zenginliğiyle de dikkat çekiyor.
“Institutional Books 1.0” Adıyla Erişime Açıldı
Toplamda 394 milyon sayfadan oluşan dijital arşiv, “Institutional Books 1.0” ismiyle araştırmacıların kullanımına sunuldu. Koleksiyonun en dikkat çeken parçalarından biri, 1400’lü yıllarda bir Koreli sanatçının kaleme aldığı bitki yetiştirme notları oldu. Harvard Hukuk Fakültesi Kütüphane İnovasyon Laboratuvarı’ndan Aristana Scourtas, bu projeyle üniversite kütüphanelerinin bilgi üretimindeki tarihî rolünün yeniden öne çıktığını ifade etti.
Etik ve Güvenilir Veri Kaynağı
Proje yöneticisi Greg Leppert, kitapların doğrudan fiziksel kopyalardan dijitale aktarıldığını vurgularken, bu yöntemin sosyal medya ya da korsan kaynaklardan gelen verilerin aksine, güvenilir ve telif hakkı sorunu olmayan içeriklerden oluştuğunu belirtti. Microsoft, OpenAI ve Google gibi teknoloji devlerinin de destek verdiği proje, kamu malı olan eserlerin etik yapay zekâ eğitimi için nasıl değerlendirilebileceğine dair güçlü bir örnek oluşturuyor.
Kültürel Miras, Teknolojiyle Buluşuyor
Sadece Harvard değil, Boston Halk Kütüphanesi gibi kurumlar da bu dijital dönüşüme katkı sağlıyor. Boston, 19. yüzyılda Kanada’dan göç eden topluluklar tarafından yayımlanan Fransızca gazeteleri arşivlemeye başladı. Bu tür çalışmalar artık sadece kültürel mirası korumakla kalmıyor; aynı zamanda yapay zekâ modellerine tarihî veri sağlıyor.
Telif Tartışmalarına Yasal Alternatif
Yapay zekâ şirketlerinin geçmişte yaşadığı telif hakkı sorunları, onları kamu malı içeriklere yönlendirdi. Google’ın 2006 yılında başlattığı dijital kitap projesi uzun süren yasal mücadelelere sahne olmuştu. Şimdi ise Google, Harvard ile iş birliği yaparak yasal çerçevede kamuya açık eserleri yapay zekâ eğitimine sunuyor. Yazarlar Birliği CEO’su Mary Rasenberger de bu gelişmenin daha fazla eserin erişilebilir hâle gelmesini sağlayacağını ifade etti.
242 Milyar Tokenlık Değerli İçerik
Harvard arşivi, Meta gibi şirketlerin kullandığı devasa veri setleriyle kıyaslandığında daha küçük hacimli olsa da (yaklaşık 242 milyar token), içerdiği tarihî ve akademik değer sayesinde model eğitiminde önemli katkılar sunma potansiyeline sahip. Koleksiyon; bilim, felsefe, hukuk, tarım ve daha birçok disiplinden metinleri içeriyor.
Zararlı İçeriklere Karşı Rehberlik Vurgusu
Uzmanlar, arşivde yer alan bazı eserlerde dönemin anlayışını yansıtan çağ dışı veya zararlı söylemlerin de bulunabileceği uyarısında bulunuyor. Harvard ekibi, bu tür içeriklerin sorumlu ve dikkatli şekilde kullanılabilmesi için araştırmacılara rehberlik sağlamayı hedefliyor.