پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

۱۲:۰۰ - ۲۰ شهریور ۱۴۰۱ فناوری و ارتباطات کد خبر : 267864

به گزارش خبرنگار خبرآنی، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه «پیکره‌ متنی بزرگ» یکی از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبان‌های با منابع کمتر مانند فارسی بیشتر احساس می‌شود.

وی افزود: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانش‌بنیان برای این مساله راه‌حل پیکره ناب را معرفی کردند. این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.

حسینیان با بیان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

وی افزود: مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره می‌توان برای روان کردن مدل‌های زبانی، که در اصل برای زبان انگلیسی تهیه شده‌اند نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

برچسب ها :

پیکره پردازش طبیعی فارسی

آخرین خبر ها

تصادف یک خودرو با دیوار در رباط کریم یک کشته و دو مصدوم برجا گذاشت
حمید رزاقی در گفتگو با خبرنگار مهر اظهار داشت: در پی تماس شهروندان با سامانه ۱۲۵ سازمان آتش‌نشانی شهرداری رباط کریم، مبنی بر وقوع یک حادثه رانندگی...
شورای شهر اهواز منحل نشد
به گزارش خبرنگار مهر، محمد مهدی مطیعی، رئیس شورای شهر اهواز شامگاه دوشنبه در خصوص سرنوشت شورای ششم این کلانشهر اظهار کرد: پیشنهاد انحلال شورای...
رکوردشکنی تماشای آنلاین بازی الکلاسیکو
به گزارش خبرنگار مهر، بهزاد اکبری، رئیس شرکت ارتباطات زیرساخت در شبکه اجتماعی ایکس نوشت: بر اساس تغییرات ترافیک IXP تهران و همچنین متوسط سرعت...
پیام وزیر آموزش و پرورش به مناسبت روز پرستار
به گزارش خبرگزاری مهر، علیرضا کاظمی، وزیر آموزش و پرورش به مناسبت ولادت باسعادت «حضرت زینب ( س) » و «روز پرستار» پیام تبریک صادر کرد. متن این...
توضیحات میراث فرهنگی در خصوص تخریب کاشی‌های صفوی میدان نقش‌جهان
به گزارش خبرنگار مهر از اصفهان، انتشار ویدئویی از تخریب بخشی از کاشی‌های تاریخی در میدان نقش‌جهان توسط یکی از مغازه‌داران، واکنش‌های گسترده‌ای را...
اژه‌ای: آماده پشتیبانی‌های حقوقی و قضایی از جامعه پرستاری کشور هستیم
به گزارش خبرگزاری مهر، حجت‌الاسلام والمسلمین محسنی اژه‌ای، همزمان با ولادت باسعادت حضرت زینب کبری ( س) و روز پرستار، با جمعی از پرستاران کشور،...
استاندار تهران: آثار ۱۴ کشور در جشنواره «هُمام» به نمایش درآمد
به گزارش خبرنگار مهر، محمدصادق معتمدیان استاندار تهران در حاشیه چهارمین جشنواره بین المللی « هُمام » با اشاره به برگزاری موفق این رویداد هنری...
فرماندار تهران: قدردان همراهی احزاب در دفاع از انقلاب هستیم
به گزارش خبرگزاری مهر به نقل از روابط عمومی فرمانداری تهران، حسین خوش اقبال معاون استاندار و فرماندار تهران در نشست هم‌اندیشی و هم افزایی با احزاب...
ششمین روز از جشنواره «همام»
شما در حال پاسخ به نظر « » هستید. × لغو پاسخ...
آغاز به کار سامانه تسهیلات اشتغالزایی جوانان وزارت ورزش و جوانان
اعظم کریمی دبیرکل طرح‌های ملی و فراگیر جوانان در گفتگو با خبرنگار مهر گفت:سامانه تسهیلات اشتغالزایی جوانان با هدف تسهیل فرآیند ثبت، بررسی و اعطای...
جشنواره «هُمام»؛ تجلی غیرت و همت هنرمندان معلول
به گزارش خبرنگار مهر، مریم جلالی معاون صنایع‌دستی و هنرهای سنتی وزارت میراث‌فرهنگی، گردشگری و صنایع‌دستی، با حضور در چهارمین جشنواره بین‌المللی «...
انجام پویش درختکاری به مناسب روز پرستار در بیمارستان کوثر سمنان
علیرضا رهایی در گفتگو با خبرنگار مهر، با بیان اینکه به مناسب روز پرستار مراسم کاشت نهال همراه مدافعان سلامت در محوطه بیمارستان کوثر سمنان انجام...
صالحی امیری: برش گردشگری در اقتصاد دریامحور تعریف می‌شود
به گزارش خبرگزاری مهر، سیدرضا صالحی‌امیری، وزیر میراث فرهنگی، گردشگری و صنایع دستی، در حاشیه نشست مشترک با استانداران استان‌های ساحلی و نماینده...
انصاری: عدالت اقلیمی با دسترسی برابر به منابع محقق می‌شود
به گزارش خبرگزاری مهر به نقل از روابط عمومی سازمان حفاظت محیط زیست، شینا انصاری، معاون رئیس جمهور و رئیس سازمان حفاظت محیط‌زیست در سخنرانی خود...
آغاز فرایند بررسی تجهیزات امدادی پایگاه‌های پشتیبانی مدیریت بحران
به گزارش خبرگزاری مهر، صمیم مرادی روزبهانی معاون آمادگی و عملیات سازمان پیشگیری و مدیریت بحران شهر تهران، با تأکید بر ضرورت آماده‌سازی و اطمینان...

پربیننده ترین ها

ششمین روز از جشنواره «همام»
شما در حال پاسخ به نظر « » هستید. × لغو پاسخ...
بررسی وضعیت ترافیک صبحگاهی تهران
به گزارش خبرگزاری مهر سرهنگ فیروز کشیر معاون اجتماعی و فرهنگ ترافیک پلیس راهور تهران بزرگ با اشاره به وضعیت ترافیکی معابر و بزرگراه‌های حال حاضر...
ایران روی سکوی پرتاب کوانتوم؛ صاحب فناوری «ساعت اتمی» می‌شویم
احتمالاً آدرس را اشتباه تایپ کرده‌اید. شما به طور خودکار به صفحهٔ اول هدایت خواهید شد. برای دسترسی سریع‌تر بر روی خانه یا جستجو کلیک کنید.
نمودار تغییرات تاخیر اینترنت کاربران ایرانی در ۲۴ ساعت گذشته
به گزارش خبرنگار مهر، بهزاد اکبری رئیس شرکت ارتباطات زیر ساخت در شبکه اجتماعی ایکس نوشت: نمودار تغییرات تأخیر اینترنت کاربران ایرانی (به عنوان یکی...
آمارهای سازمان ثبت احوال کشور، پایه تصمیم سازی اجتماعی و اقتصادی
به گزارش خبرگزاری مهر، هاشم کارگر معاون وزیر کشور و رئیس سازمان ثبت احوال گفت: مرکز رصد جمعیت کشور سازمان ثبت‌احوال، با پایش مستمر شاخص‌هایی همچون...
زینب کبری (س)؛ تجلی رهبری زنانه در تاریخ ایمان و عقلانیت
خبرگزاری مهر، گروه جامعه؛ زینب کبری سلام‌الله‌علیها توانست به همه تاریخ و همه جهان نشان بدهد، ظرفیت روحی و عقلی عظیم جنس زن را. این خیلی مهم...
مصدومیت ۱۶ نفر به دلیل برخورد دو اتوبوس در جاده مخصوص کرج
جلال ملکی سخنگوی سازمان آتش نشانی شهرداری تهران در گفتگو با خبرنگار مهر اعلام کرد: ساعت ۰۶:۵۰ دقیقه امروز برخورد دو دستگاه اتوبوس در مسیر غرب به...
امضای تفاهم نامه میان وزارت میراث فرهنگی و بنیاد مستضعفان
به گزارش خبرنگار مهر، آئین امضای تفاهم نامه همکاری وزارت میراث فرهنگی، گردشگری و صنایع دستی و بنیاد مستضعفان انقلاب اسلامی در حوزه توانمندسازی...
نوسازی ۱۵ پله‌برقی در خط ۴ متروی تهران
به گزارش خبرگزاری مهر، حجت‌الله قائد رحمتی، معاون مهندسی شرکت بهره‌برداری متروی تهران و حومه، با اشاره به فعالیت هزار و ۳۲۶ دستگاه پله‌برقی در...
نکاتی درباره حضانت؛ کودکانی که قربانی اختلافات حقوقی والدین می‌شود
به گزارش خبرنگار مهر، حضانت و ولایت دو نهاد کلیدی و قانونی در زندگی هر کودک محسوب می‌شوند؛ حضانت به معنای نگهداری، مراقبت و تربیت روزمره و ولایت...

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

پیکره پردازش طبیعی فارسی

آخرین خبر ها

پربیننده ترین ها

دوستان ما

گزارش تخلف

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

پیکره پردازش طبیعی فارسی

مطالب پیشنهادی

آخرین خبر ها

پربیننده ترین ها

دوستان ما

گزارش تخلف