为「木兰」编程语言添加对中文命名标识符的支持
发布日期:2021-06-29 15:29:22
浏览次数:2
分类:技术文章
本文共 854 字,大约阅读时间需要 2 分钟。
基于 @肖剑 的(如很多人已经知道的, 当然是 Python 代码, 很不错, 嗯).
开始对「木兰」编程语言进行分析。首先打算摸索它的基本功能。前文已经进行了少量代码测试.
但, 可惜木兰, 打算先改进一下, 以便编写更易维护的测试代码. 测试代码打算先在逆向工程中运行(主力机器是 Mac),待基本确定范围后,再在 exe 中确认一遍。
运行 ulang-0.2.2.exe 后, 如果输入下面代码:
年 = year()
会报错LexingError
.
在我 fork 出的逆向工程中运行python -m ulang
可以启动同样的交互环境 ulang’s REPL. 但同样的代码报错不同, 似乎信息更多一些:
> 年 = year()SyntaxError: File "", line 1:1, unknown token is found here年 = year()^
回头可以研究一下报错机制, 为何 exe 和逆向的不同.
早先回答时猜想是由于"实现的前端在词法分析这步拦住了"中文命名, 于是查看逆向代码中, 果然看到parser/lexer.py
中关于标识符的正则表达规则中, 只允许英文/数字/下划线:
lg.add('IDENTIFIER', '\\$?[_a-zA-Z][_a-zA-Z0-9]*')
接下去就熟门熟路, 添加上中文字符的 unicode 范围:
lg.add('IDENTIFIER', '\\$?[_a-zA-Z\u4e00-\u9fa5][_a-zA-Z0-9\u4e00-\u9fa5]*')
再从逆向工程中运行:
$ python3 -m ulangWelcome to ulang's REPL..Type 'help' for more informations.> 年 = year()> 年2020
嗯, 告别过去, 不错的第一步.
逆向工程地址: https://github.com/MulanRevive/mulan
转载地址:https://codeinchinese.blog.csdn.net/article/details/104387132 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
第一次来,支持一个
[***.219.124.196]2024年04月12日 01时27分41秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
世界上最大的实时、高频、低延迟流媒体系统是如何建成的?
2019-04-29
提升查询技能,这7条SQL查询错误必须解决
2019-04-29
TKDE 2020 | 综述:基于知识图谱的推荐系统
2019-04-29
休息时间!哪些业余活动能提升开发人员的技能?
2019-04-29
把人脑“森林”上传到计算机:人类脑计划只是一个科幻野心?
2019-04-29
智力测试:如何超越动物之智?
2019-04-29
事关人类生存?为什么要探寻AI系统的可解释性?
2019-04-29
安全工程师必知:常见Java漏洞有哪些?
2019-04-29
数据科学中的计量经济学技术
2019-04-29
突破边界:数据科学、数据工程和技术的未来
2019-04-29
一切有迹可循!优秀程序员的9个早期迹象
2019-04-29
在后台的python:众多程序员无法攻克的难题
2019-04-29
未来战争:装载AI的美国空军侦察机已经试飞……
2019-04-29
屡战屡败:为什么你会觉得学习编程很难?
2019-04-29
“狙击”特斯拉:电动汽车后起之秀的最后一战
2019-04-29
软件测试的未来:2021年需要关注的15大软件测试趋势
2019-04-29
六大基本AI术语:如何做好人工智能咨询服务?
2019-04-29
讲真,如果手机有灵魂,那就是“备忘录”
2019-04-29
端到端加密:WhatsApp不会去读取你的信息,它不需要……
2019-04-29
国会大厦骚乱,与一家极不可靠的面部识别公司……
2019-04-29