文/集佳知識產(chǎn)權代理有限公司 朱靜
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度等多門學科,專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或者技能,重新組織已有的知識結構使之不斷改善自身的性能。簡單的講,機器學習是一門人工智能的學科,其主要研究對象是人工智能,特別是如何在經(jīng)驗學習中改善具體算法的性能。
目前,機器學習已經(jīng)在眾多領域得到應用,例如數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、證券市場分析、DNA序列預測以及機器人運用。隨著機器學習在各個領域的快速發(fā)展,眾多企業(yè)逐漸投入研發(fā)機器學習技術,從而使得幾年來涉及機器學習技術的專利越來越多,于此同時,企業(yè)對機器學習的專利申請需求也越來越多,因此,如何撰寫機器學習技術的專利是目前專利從業(yè)人員所關注的重點之一?;诖?,筆者根據(jù)撰寫經(jīng)驗談一談涉及機器學習技術的專利申請文件的撰寫策略。
機器學習在技術實現(xiàn)時,大致分為模型訓練階段和模型應用階段,所謂模型訓練階段是指利用機器學習算法對樣本數(shù)據(jù)進行學習以訓練模型的階段,所謂模型應用階段是指利用訓練好的模型對新數(shù)據(jù)進行預測的階段。而在實際技術研發(fā)過程中,有時會針對模型訓練階段產(chǎn)生相關專利,而有時會針對模型應用階段產(chǎn)生相關專利,當然,大部分時候是在兩個階段都有相關的改進點,即同時產(chǎn)生相關專利。
基于機器學習技術本身的特點,筆者根據(jù)自身撰寫經(jīng)驗總結出以下撰寫策略:
(1)、在實際操作中,先根據(jù)交底書明確技術改進點屬于哪個階段,方案僅涉及訓練階段的改進點,還是僅涉及到應用階段的改進點,還是兩者皆有。根據(jù)方案的改進點所屬的具體階段部署對應的權項。下面針對不同的情況分別進行說明。
一種情況是,方案僅在模型訓練階段存在改進點,例如,在模型訓練階段涉及到原始數(shù)據(jù)采集、樣本數(shù)據(jù)挖掘、特征提取、模型內(nèi)部結構變化、模型參數(shù)更新算法以及模型組合訓練等一個或者多個方面,方案若在這些方面作了改進,針對這種情況,則僅部署模型的訓練方法以及產(chǎn)品等相關權項。
另一種情況是,方案僅在模型應用階段存在改進點,例如,在模型應用階段一般會涉及到數(shù)據(jù)采集、特征提取、模型內(nèi)部結構變化、模型輸出結果應用以及模型組合應用等一個或者多個方面,方案若在這些方面作了改進,則僅部署模型的應用方法以及產(chǎn)品等相關權項。
還有一種情況是,方案既涉及模型訓練階段又涉及模型應用階段,例如:方案涉及到模型內(nèi)部結構的改進,則既需要部署模型訓練的方法還需要部署模型應用的方法以及相關產(chǎn)品等權項。
?。?)、在確定應部署的權項主題之后,再確定具體改進點所屬的特定環(huán)節(jié),根據(jù)特定環(huán)節(jié)定位出合理的權項范圍,而無需站在模型訓練過程或者模型應用過程的全局角度進行定位,以避免喪失權利。下面進行舉例說明。
一種情況是,有些方案僅僅涉及訓練階段的某一個獨立環(huán)節(jié)的改進,則可以將方案定位到具體的獨立環(huán)節(jié),而無需站在整個訓練過程進行全局定位,這樣能夠確定出合理的權項范圍。
例如:有些方案僅涉及模型訓練階段中樣本數(shù)據(jù)采集方面的改進,則可以將權項范圍定位在樣本數(shù)據(jù)采集的范圍即可,具體在撰寫時,方法權要的步驟描述出如何采集樣本數(shù)據(jù)以完整表征改進點即可,可以跳出交底書中限定的特定模型下的訓練場景,基于此,也可以對方案進行場景性擴展,以及訓練過程中其他環(huán)節(jié)的擴展。但在從權中可以通過名詞限定或者增加方法步驟的方式進一步地保護樣本數(shù)據(jù)應用于具體模型訓練的方案,以保證交底書中提供的最佳場景應用的方案。例如,在從權中采用功能性限定,如所述樣本數(shù)據(jù)用于某某模型訓練,或者利用所述樣本數(shù)據(jù)對某某模型進行訓練。
另一種情況是,有些方案僅僅涉及訓練階段中損失函數(shù)部分的改進,而此部分也無法作為獨立的方案,基于此,可以根據(jù)該改進點所處的具體環(huán)節(jié),或者與其直接相關的環(huán)節(jié),確定權項合理的范圍;在機器學習中損失函數(shù)部分會涉及構建目標函數(shù)以及利用目標函數(shù)進行模型參數(shù)優(yōu)化環(huán)節(jié),基于此,可以將權項范圍定位到這兩個環(huán)節(jié)相結合所組成的范圍,而無需站在訓練過程全局角度進行定位,也不能定位到函數(shù)本身的范圍,即不能盲目縮小范圍至喪失技術方案本身所需的素材導致不屬于保護客體,也不能局限于整個實際方案實現(xiàn)的場景,這樣才能夠確定出合理的權項范圍。
?。?)、在實際操作中,大部分涉及機器學習技術的方案會同時涉及到模型訓練以及模型應用兩個階段的改進,針對此情況,考慮到實際維權階段的相關問題,建議先從模型應用角度部署相關權項,再從模型訓練角度部署相關權項。這主要是因為,一方面模型應用相比模型訓練更容易取證,由于模型訓練一般僅在后臺完成,而模型應用則有可能由前臺完成,供用戶使用。因此,模型應用相比模型訓練更容易取證。另一方面,模型應用的市場價值也遠遠大于模型訓練的市場價值,例如,有時模型訓練可能一次性完成,而一旦模型在訓練好之后是會被重復應用,而且很容易被移植應用;在實際應用中,有的企業(yè)主要負責模型算法研究進行模型訓練,從而為其他多家企業(yè)提供訓練好的模型,則其他多家企業(yè)會同時應用這一模型實現(xiàn)其產(chǎn)品功能。也就是說,模型應用再現(xiàn)的可能性比模型訓練再現(xiàn)的可能性要高的多。因此,建議優(yōu)先考慮構建模型應用的權利要求,再考慮構建模型訓練的權利要求。
另外,還考慮到專利申請經(jīng)費或者維權等各種問題,在實際撰寫過程中,也可以將模型訓練過程作為模型應用權項的從屬權項進行部署。例如,權1是一種模型應用方法,而權2引用權1,進一步增加關于如何訓練權1中的模型的方案。
(4)、在實際操作中,也會遇到有些案件雖然提及到機器學習技術,但其僅是利用了已有的模型進行相應處理,對模型訓練以及模型應用均為作改進,因此,針對這種類型的案件,在撰寫時,可以不寫模型的訓練,也無需關注模型的具體網(wǎng)絡結構,可以把模型當作能夠實現(xiàn)特定數(shù)據(jù)處理的,具有一定輸入輸出映射功能的黑盒處理即可,無需浪費過多筆墨,而把重點放在方案的實際改進點。
?。?)、在實際操作中,考慮到機器學習技術本身技術復雜性較高,為了提高專利申請文件的可讀性,可以針對方案本身的技術特點在說明書布局以及說明書附圖特殊處理,例如,針對模型訓練和模型應用具有改進的方案,雖然在權利要求中先部署的模型應用后部署的模型訓練,但在說明書中可以先部署模型訓練的相關實施例,再部署模型應用的相關實施例,以方便企業(yè)審核人、審查員、法官等在處理案件時更容易理解方案的實現(xiàn)。
另外,在針對模型網(wǎng)絡結構本身有改進的方案,由于模型的網(wǎng)絡結構的改進本質上是對數(shù)據(jù)處理邏輯的改進,而數(shù)據(jù)處理邏輯從數(shù)據(jù)層面來講,往往是網(wǎng)絡參數(shù)矩陣以及其含義的變化,這種變化是很難通過簡單的繪圖來表征,對此,可以將模型內(nèi)部網(wǎng)絡結構功能模塊化,根據(jù)其對數(shù)據(jù)處理邏輯,確定每個模塊的輸入輸出,進而通過級聯(lián)式方式繪制出由具有特定功能的模塊所組成的模型,尤其是在繪圖中,可以有效結合實際研發(fā)過程中的中間結果圖以及實際應用中產(chǎn)生的效果圖,例如,模型用于對圖像進行處理所產(chǎn)生的效果圖,這樣,能夠通過圖文結合的方式更清楚地表征方案的核心改進點和有益效果,也能夠方便企業(yè)審核人、審查員、法官等在處理案件時更容易理解方案的具體情況。
以上主要是筆者根據(jù)個人經(jīng)驗,說明了撰寫涉及機器學習技術的專利申請文件時需要考慮的幾點因素,當然,在撰寫專利申請文件時也需要兼顧考慮其他因素。由于,機器學習本身涉及的知識非常廣闊,該技術還在不斷的發(fā)展更新中,筆者也僅能夠了解其中一角,如有紕漏之處還請批評指正。