Държавата ни е сред първите със собствен отворен модел

Най-трудно бе BgGPT да не забравя наученото на английски

Идеята за BgGPT се появила през 2022 г. - чат приложение с изкуствен интелект от последно поколение, специализирано за българския език, култура, история и фактология. Кое е предизвикателство при обучението на модел с български компонент, може ли BgGPT да бъде интегриран в работата на държавната администрация и планира ли се да бъде отворен за български университети, стартъпи и държавни институции, разговаряме с проф. Мартин Вечев.

Проф. Мартин Вечев ередовен професор по компютърни науки в ETH Цюрих, където ръководи Лабораторията за сигурни, надеждни и интелигентни системи и е основател и архитект на INSAIT.

Преди да започне работа в ETH Цюрих, Вечев е член на изследователския екип в IBM T.J. Watson Research Center в Ню Йорк, САЩ (2007-2011 г.). Той получава докторска степен от Университета в Кеймбридж, Англия (2003-2008 г.) и бакалавърска степен от Университета Саймън Фрейзър (SFU), Канада (1996-2001 г.). Преди това учи в Софийската математическа гимназия (СМГ).

Проф. Мартин Вечев е основател и научен директор на Института за компютърни науки, изкуствен интелект и технологии (INSAIT). Институтът е открит на 11 април 2022 г. по силата на споразумение между Швейцарския федерален технологически институт в Цюрих, Швейцарския федерален политехнически институт в Лозана, Софийския университет “Св. Климент Охридски” и правителството на Република България.

- Как се роди идеята за BgGPT?

- Идеята за BgGPT започна още през 2022 година, когато решихме да създадем отворен модел, специализиран за българския език, култура, история и фактология. Всъщност с това си решение и чрез INSAIT, България се нареди сред първите държави в света, които сдобиха собствен отворен модел.

- По какво BgGPT се различава от глобалните AI модели като ChatGPT или LlaMA?

- ChatGPT е базиран на затворен модел, до който има достъп основно през чат приложението. Тоест, този модел не може да бъде свален на място на вашия компютър, където да го използвате локално без да пращете данните си някъде в облака. Llama са група отворени модели, които всеки може да свали и да ползва на място при себе си, но те не са специализирани за български. BgGPT също е отворен модел, но е създаден специално с цел да се справя добре на български и да отразява българската култура, история, и фактология.

- Кое беше най-голямото предизвикателство при обучението на модел с български компонент?

- Един от големите проблеми е т. нар. катастрофално забравяне. Тоест, моделът се учи добре на български, но губи уменията и знанията си на английски език или математика. По този начин той става безполезен за например задачи като превод от английски на български или решаване на задачи на български. Тоест, проблемът е следният: как да научим модела на нови знания (български), но без да забравя старите? Това е сложна задача, заради която трябваше да проведем редица нови изследвания в INSAIT. Те бяха приети и публикувани във водеща световна конференция за изкуствен интелект. Всъщност, тази разработка е полезна не само за български, но и за всякакви други нови умения на които искаме да научим модела.

- Може ли BgGPT да бъде интегриран в работата на държавната администрация?

- Да, INSAIT работи усилено по темата и скоро би трябвало да има обявявания, които ще обяснят как INSAIT е внедрил BgGPT успешно в различни държавни институции.

- Ще бъде ли BgGPT достъпен за научната общност и стартъпи в България?

- Да, той винаги е бил достъпен от самото начало. Това е и идеята на отворените модели, да бъдат свободно и безплатно достъпни за бизнеса, за научната област и за компаниите и институциите като цяло. Всъщност доста институции, както държавни, така и частни, са ни писали по темата и знаем, че го използват по различни начини и за различни задачи.

- Каква е концепцията на „фабриката за изкуствен интелект“ и по какво тя се различава от традиционните изследователски центрове?

- Фабриката не е изследователски център, но тя може да кооперира с изследователски центрове. Фабриката има за цел да събере на едно място както изчислителна мощ за изкуствен интелект, тоест специфични компютри, които се използват за обучението на AI модели, така и стартъпи и компании, които развиват продукти базирани на AI. Тези стартъпи и компании ще използват тази изчислителна мощ, но и ще получават напътствия и помощ при решаването на определени бизнес казуси. С една дума, фабриката, заедно с INSAIT са стъпка към изграждането на една по-силна и по-конкурентна българска AI екосистема.

- Този проект ще направи ли страната ни конкурент в глобалната AI индустрия?

- Бих казал, че комбинацията между INSAIT и фабриката ще има експоненциален ефект при позиционирането на България в света на изкуствения интелект и със сигурност ще я направи по-конкурентна.

- Как AI фабриката ще подпомогне разработката на нови модели като BgGPT 2 или специализирани AI за медицина, образование и киберсигурност?

- Един от важните компоненти във фабриката е наличието на мощни компютри, специализирани за AI - те са критично важни при обучението на нови модели, които изискват голям обем от изчислителни ресурси. Същевременно, INSAIT притежава уменията и знанията да изгражда модели на световно ниво във всякакви сфери. Тоест, тази комбинация ще доведе до това в България да бъдат изграждани едни от най-добрите модели в света в различни сфери.

- По какъв начин ще се финансира този проект?

- Фабриката се финансира 50/50. 50 процента от финансирането идва от Европа и 50 процента идва от държавата. Това важи за всички фабрики до момента от този мащаб.

- Планирате ли тя да бъде отворена за български университети, стартъпи и държавни институции?

- Да, разбира се.

- В Китай вече има вой от загубата на работни места заради проникването на изкуствения интелект навсякъде? Предстои ли същото в България?

- Това се случва навсякъде и е неизбежно. Бих казал, че е важно хората да започнат да се учат да работят с този инструмент. Човек който знае да работи с него ще е по-ефективен от човек, който не го използва или от просто изкуствен интелект.

- Има ли риск заради изкуствения интелект да залинее естественият интелект?

- Да, както и технологиите като цяло. При лесен достъп до информацията, хората спират да търсят, а самото търсене на информация е всъщност част от процеса на учене. Това е риск, който трябва да се контролира внимателно.