هارفارد تتيح أكثر من مليون كتاب لخدمة الذكاء الاصطناعي
14 يونيو 2025
كشفت جامعة هارفارد عن إطلاق مجموعتها المكتبية الأضخم للتدريب على الذكاء الاصطناعي، حيث أتاحت أكثر من مليون كتاب ممسوح يصل مجموع صفحاتها إلى 394 مليون صفحة، ويعود بعضها إلى القرن الخامس عشر، ويغطي أكثر من 254 لغة مختلفة.
وبحسب وكالة "أسوشيتد برس"، فإن هذه المبادرة غير المسبوقة تشكّل خطوة هامة ضمن سياق استخدام الذكاء الاصطناعي في الأبحاث والنصوص الثقافية.
وتسعى هذه الخطوة إلى توفير بيانات قانونية وعالية التنوع لتغذية أنظمة الذكاء الاصطناعي، في وقت تتصاعد فيه الدعاوى القضائية التي يرفعها كتّاب وفنّانون يتهمون الشركات باستخدام أعمالهم دون موافقتهم للتدريب على الذكاء الاصطناعي.
وتعتبر هذه المكتبة جزءًا من تعاون بين هارفارد وشركتي مايكروسوفت وOpenAI ضمن "مبادرة البيانات المؤسسية"، التي تهدف إلى استخدام مجموعات المكتبات في الذكاء الاصطناعي بأسلوب قانوني، ويخدم المجتمع والبحث العلمي على حدٍّ سواء. ويؤكد القائمون على المبادرة أن استخدام بيانات المكتبات الأصلية بدلًا من المصادر غير المصرّح بها يضمن قدر أكبر من الدقة والنطاق المعرفي.
ثمة تحديات تتضمن وجود معلومات غير دقيقة ضمن هذه الكتب والنصوص التي تحتوي على نظرات استعمارية أو علمية عفا عليها الزمن
كما تتضمن الخطة إتاحة مجموعات أخرى مثل الصحف والوثائق الحكومية التي تمت رقمنتها في المكتبة العامة في بوسطن. هذه الأرشيفات تساعد على رفع قدرات الذكاء الاصطناعي على التحليل والنصوص بسبب تنوع المصادر التي تتضمن كتب قانونية، علمية، فلسفية، بالإضافة إلى لغات مختلفة غير الإنجليزية التي تشكّل نصف مجموع الكتب على الأقل.
وأشاد القائمون على هذه المبادرة بأهمية استخدام بيانات المكتبات الأصلية بدلًا من المصادر غير المصرّح بها التي كان الذكاء الاصطناعي يعتمد عليها في السابق. ويعتبر إطلاق هذه الأرشيفات خطوة للتوازن بين استخدام الذكاء الاصطناعي في الأبحاث والحفاظ على حقوق المؤلفين والنطاق العام.
كما تساعد هذه البيانات على بناء تطبيقات أكثر عدالة ودقة ضمن الذكاء الاصطناعي، مع التنبيه إلى التحديات التي تتضمن وجود معلومات غير دقيقة ضمن هذه الأرشيفات والنصوص التي تحتوي على نظرات استعمارية أو علمية عفا عليها الزمن. ويسعى القائمون على المكتبة إلى توفير إرشادات للتعامل مع هذه البيانات ضمن سياق مسؤول للتعلم الذاتي.
وتعتبر هذه المبادرة جزءًا من سياق عام يتم فيه إطلاق مجموعات بيانات قانونية للتدريب على الذكاء الاصطناعي، في محاولة للتوازن بين التقدم التكنولوجي والحفاظ على الحقوق الثقافية والنطاق المعرفي للجميع.
ويعتبر هذا التحرك خطوة ضمن سياق قانوني، يهدف إلى خلق نموذج للتدريب على الذكاء الاصطناعي، يتم فيه الجمع بين القوة المعرفية للتقنية والحفاظ على حقوق الأفراد والجهات التي أنتجت تلك المعارف والنصوص الأصلية.